Statistical Methods to Enhance Clinical Prediction with High-Dimensional Data and Ordinal Response

Leha, Andreas

von Andreas Leha

Dissertation

Datum der mündl. Prüfung:2015-03-25

Erschienen:2015-04-08

Betreuer:Prof. Dr. Tim Beißbarth

Gutachter:Prof. Dr. Tim Beißbarth

Gutachter:Prof. Dr. Stephan Waack

Zum Verlinken/Zitieren: http://dx.doi.org/10.53846/goediss-4960

Dateien

Name:thesis_wo_cv_optimized.pdf

Size:3.87Mb

Format:PDF

Description:Thesis without CV

ViewOpen

Lizenzbestimmungen:

Zusammenfassung

Englisch

Advancing technology has enabled us to study the molecular configuration of single cells or whole tissue samples. Molecular biology produces vast amounts of high-dimensional omics data at continually decreasing costs, so that molecular screens are increasingly often used in clinical applications. Personalized diagnosis or prediction of clinical treatment outcome based on high-throughput omics data are modern applications of machine learning techniques to clinical problems. In practice, clinical parameters, such as patient health status or toxic reaction to therapy, are often measured on an ordinal scale (e.g. good, fair, poor). The prediction of ordinal end-points is commonly treated as a simple multi-class classification problem, disregarding the ordering information contained in the response. But classifiers that do not consider the order in the response may loose prediction accuracy and may even produce unexpectedly disordered predictions. Classical approaches to model ordinal response directly, including for instance the cumulative logit model, are typically not applicable to high-dimensional data. We present hierarchical twoing (hi2), an algorithm for classification of high-dimensional data into ordered categories. hi2 combines the power of well-understood binary classification with ordinal response prediction. An open-source implementation of hi2 is made available. A comparison of several approaches for ordinal classification on real world data as well as simulated data shows that established classification algorithms especially designed to handle ordered categories fail to improve upon state-of-the-art non-ordinal classification algorithms. In general, the classification performance of an algorithm is dominated by its ability to deal with the high-dimensionality of the data. We demonstrate that our algorithm hi2 shows consistently strong performance and outperforms its competitors in many cases.

Keywords: Predictive Modelling; Classification; Ordinal; High Dimensional Data

Weitere Sprachen

Der technologische Fortschritt ermöglicht es heute, die moleculare Konfiguration einzelner Zellen oder ganzer Gewebeproben zu untersuchen. Solche in großen Mengen produzierten hochdimensionalen Omics-Daten aus der Molekularbiologie lassen sich zu immer niedrigeren Kosten erzeugen und werden so immer häufiger auch in klinischen Fragestellungen eingesetzt. Personalisierte Diagnose oder auch die Vorhersage eines Behandlungserfolges auf der Basis solcher Hochdurchsatzdaten stellen eine moderne Anwendung von Techniken aus dem maschinellen Lernen dar. In der Praxis werden klinische Parameter, wie etwa der Gesundheitszustand oder die Nebenwirkungen einer Therapie, häufig auf einer ordinalen Skala erhoben (beispielsweise gut, normal, schlecht). Es ist verbreitet, Klassifikationsproblme mit ordinal skaliertem Endpunkt wie generelle Mehrklassenproblme zu behandeln und somit die Information, die in der Ordnung zwischen den Klassen enthalten ist, zu ignorieren. Allerdings kann das Vernachlässigen dieser Information zu einer verminderten Klassifikationsgüte führen oder sogar eine ungünstige ungeordnete Klassifikation erzeugen. Klassische Ansätze, einen ordinal skalierten Endpunkt direkt zu modellieren, wie beispielsweise mit einem kumulativen Linkmodell, lassen sich typischerweise nicht auf hochdimensionale Daten anwenden. Wir präsentieren in dieser Arbeit hierarchical twoing (hi2) als einen Algorithmus für die Klassifikation hochdimensionler Daten in ordinal Skalierte Kategorien. hi2 nutzt die Mächtigkeit der sehr gut verstandenen binären Klassifikation, um auch in ordinale Kategorien zu klassifizieren. Eine Opensource-Implementierung von hi2 ist online verfügbar. In einer Vergleichsstudie zur Klassifikation von echten wie von simulierten Daten mit ordinalem Endpunkt produzieren etablierte Methoden, die speziell für geordnete Kategorien entworfen wurden, nicht generell bessere Ergebnisse als state-of-the-art nicht-ordinale Klassifikatoren. Die Fähigkeit eines Algorithmus, mit hochdimensionalen Daten umzugehen, dominiert die Klassifikationsleisting. Wir zeigen, dass unser Algorithmus hi2 konsistent gute Ergebnisse erzielt und in vielen Fällen besser abschneidet als die anderen Methoden.

Statistik