Assessing prediction error of genetic variants in Cox regression models
by Yesilda Balavarca Villanueva
Date of Examination:2012-04-20
Date of issue:2012-04-30
Advisor:Prof. Dr. Heike Bickeböller
Referee:Prof. Dr. Martin Schlather
Referee:Prof. Dr. Heike Bickeböller
Files in this item
Name:balavarca.pdf
Size:876.Kb
Format:PDF
Abstract
English
Genetic studies focus on the identification of genetic variants in association with development of disease. Recently, there has been special interest in predicting outcomes based on genetic risk scores and interest in classification of patients into different risk levels of disease probability. The evaluation of models for prediction requires an extra independent dataset to be used as testing data, which is not always available. The 0.632 estimator is a good alternative to overcome this problem. We adapted the Schoenfeld residuals as a criterion to measure prediction errors in a Cox regression model for survival data and combined it with the 0.632 estimator. Based on this adapted estimator we formulated an R-squared measure for prediction (R2-pred) to estimate the gain in prediction due to predictors in the model. We evaluated the performance of our approach through simulation studies with genetic variants as predictors of survival outcome. We compared the R2-pred estimates with that obtained from use of independent validation data. In addition, we compared our approach with that of the Brier score. We found that estimates of R2-pred based on the 0.632 estimator and on Schoenfeld residuals have the best performance among the other competitors. The 0.632 estimator approximates best the expected R2-pred value of a Cox model, and the Schoenfeld residuals allow better differentiation of the gain in prediction of the outcome. We present an application to a clinical-genetic study on stem cell transplantation, with focus on evaluation of the prediction capability of risk score levels for death after transplantation.
Keywords: Cox regression model; Schoelfeld residuals; Brier score
Other Languages
Schwerpunkt genetischer Studien ist die Erkenntnis von genetischen Varianten, die im Zusammenhang mit der Entwicklung von Krankheiten stehen. In letzter Zeit gab es besonderes Interesse an Vorhersagen basierend auf genetischen Risiko-Scores und zur Klassifizierung von Patienten in verschiedene Risikostufen der Krankheitswahrscheinlichkeit. Zur Bewertung der Modellgüte für die Vorhersage wird ein zusätzlicher unabhängiger Datensatz als Testdatensatz benötigt, der nicht immer zur Verfügung steht. Der 0,632 Schätzer ist eine gute Alternative, um dieses Problem zu überwinden. Wir kombinierten den 0,632-Schätzer mit Schoenfeld-Residuen als Kriterium zur Vorhersage von Fehlern in einem Cox-Regressionsmodell von Überlebenszeitdaten. Basierend auf diesem Schätzer, formulierten wir ein R-Quadrat Maß für die Vorhersage (R2-pred), welches schätzt, wie stark sich die Vorhersagegüte durch die Prädiktoren im Modell verbessert. Wir untersuchten die Leistung unseres Ansatzes durch Simulationsstudien mit genetischen Varianten als Prädiktoren für das Überleben. Wir verglichen unseren R2-pred Schätzer mit der entsprechenden Schätzung auf unabhängigen Validierungsdaten. Darüber hinaus wiederholten wir unseren Ansatz unter Verwendung des Brier-Scores anstelle der Schoenfeld-Residuen als Fehlermaß. Wir fanden, dass 0,632 Schätzungen von R2-pred, die auf Schoenfeld-Residuen basieren, am besten waren: Der 0,632 Schätzer approximiert am besten die erwarteten R2-pred Werte eines Cox-Modells, Schoenfeld-Residuen ermöglichten die beste Differenzierung der Verbesserung der Vorhersagegüte (im Vergleich zum Brier-Score). Wir präsentieren eine Anwendung auf eine klinisch-genetische Studie zur Stammzell-Transplantation, mit Fokus auf der Evaluierung der Prognose-Fähigkeit der Risiko-Scores für den Tod nach Transplantation.
Schlagwörter: Cox-Regressionsmodell; Schoenfeld-Residuen; Brier score