Statistical Methods to Enhance Clinical Prediction with High-Dimensional Data and Ordinal Response
von Andreas Leha
Datum der mündl. Prüfung:2015-03-25
Erschienen:2015-04-08
Betreuer:Prof. Dr. Tim Beißbarth
Gutachter:Prof. Dr. Tim Beißbarth
Gutachter:Prof. Dr. Stephan Waack
Dateien
Name:thesis_wo_cv_optimized.pdf
Size:3.87Mb
Format:PDF
Description:Thesis without CV
Zusammenfassung
Englisch
Advancing technology has enabled us to study the molecular configuration of single cells or whole tissue samples. Molecular biology produces vast amounts of high-dimensional omics data at continually decreasing costs, so that molecular screens are increasingly often used in clinical applications. Personalized diagnosis or prediction of clinical treatment outcome based on high-throughput omics data are modern applications of machine learning techniques to clinical problems. In practice, clinical parameters, such as patient health status or toxic reaction to therapy, are often measured on an ordinal scale (e.g. good, fair, poor). The prediction of ordinal end-points is commonly treated as a simple multi-class classification problem, disregarding the ordering information contained in the response. But classifiers that do not consider the order in the response may loose prediction accuracy and may even produce unexpectedly disordered predictions. Classical approaches to model ordinal response directly, including for instance the cumulative logit model, are typically not applicable to high-dimensional data. We present hierarchical twoing (hi2), an algorithm for classification of high-dimensional data into ordered categories. hi2 combines the power of well-understood binary classification with ordinal response prediction. An open-source implementation of hi2 is made available. A comparison of several approaches for ordinal classification on real world data as well as simulated data shows that established classification algorithms especially designed to handle ordered categories fail to improve upon state-of-the-art non-ordinal classification algorithms. In general, the classification performance of an algorithm is dominated by its ability to deal with the high-dimensionality of the data. We demonstrate that our algorithm hi2 shows consistently strong performance and outperforms its competitors in many cases.
Keywords: Predictive Modelling; Classification; Ordinal; High Dimensional Data
Weitere Sprachen
Der technologische Fortschritt ermöglicht es heute, die moleculare
Konfiguration einzelner Zellen oder ganzer Gewebeproben zu
untersuchen. Solche in großen Mengen produzierten
hochdimensionalen Omics-Daten aus der Molekularbiologie lassen sich
zu immer niedrigeren Kosten erzeugen und werden so immer
häufiger auch in klinischen Fragestellungen eingesetzt.
Personalisierte Diagnose oder auch die Vorhersage eines
Behandlungserfolges auf der Basis solcher Hochdurchsatzdaten stellen
eine moderne Anwendung von Techniken aus dem maschinellen Lernen dar.
In der Praxis werden klinische Parameter, wie etwa der
Gesundheitszustand oder die Nebenwirkungen einer Therapie, häufig auf
einer ordinalen Skala erhoben (beispielsweise gut, normal,
schlecht).
Es ist verbreitet, Klassifikationsproblme mit ordinal skaliertem
Endpunkt wie generelle Mehrklassenproblme zu behandeln und somit die
Information, die in der Ordnung zwischen den Klassen enthalten ist, zu
ignorieren. Allerdings kann das Vernachlässigen dieser Information zu
einer verminderten Klassifikationsgüte führen oder sogar eine
ungünstige ungeordnete Klassifikation erzeugen.
Klassische Ansätze, einen ordinal skalierten Endpunkt direkt zu
modellieren, wie beispielsweise mit einem kumulativen Linkmodell,
lassen sich typischerweise nicht auf hochdimensionale Daten anwenden.
Wir präsentieren in dieser Arbeit hierarchical twoing (hi2) als
einen Algorithmus für die Klassifikation hochdimensionler Daten in
ordinal Skalierte Kategorien. hi2 nutzt die Mächtigkeit der
sehr gut verstandenen binären Klassifikation, um auch in ordinale
Kategorien zu klassifizieren. Eine Opensource-Implementierung von
hi2 ist online verfügbar.
In einer Vergleichsstudie zur Klassifikation von echten wie von
simulierten Daten mit ordinalem Endpunkt produzieren etablierte
Methoden, die speziell für geordnete Kategorien entworfen wurden,
nicht generell bessere Ergebnisse als state-of-the-art
nicht-ordinale Klassifikatoren. Die Fähigkeit eines Algorithmus, mit
hochdimensionalen Daten umzugehen, dominiert die
Klassifikationsleisting. Wir zeigen, dass unser Algorithmus hi2
konsistent gute Ergebnisse erzielt und in vielen Fällen besser
abschneidet als die anderen Methoden.