Alignmentfreie Analyse von Proteinsequenzen mit Verfahren des maschinellen Lernens
Alignment-free Analysis of Protein Sequences with Machine Learning Techniques
von Thomas Lingner
Datum der mündl. Prüfung:2008-10-06
Erschienen:2008-10-08
Betreuer:Dr. Peter Meinicke
Gutachter:Prof. Dr. Burkhard Morgenstern
Gutachter:Prof. Dr. Stephan Waack
Dateien
Name:lingner.pdf
Size:2.48Mb
Format:PDF
Description:Dissertation
Zusammenfassung
Englisch
Currently, alignment-based methods are routinely used for functional characterization of novel protein sequences. However, these methods are computationally demanding for large sequence sets. In this work, two novel approaches for alignment-free representation and analysis of protein sequences are presented. In combination with state-of-the-art machine learning techniques, the methods are applicable to remote homology detection and large-scale protein classification. The evaluation on a widely-used benchmark data set for remote homology detection demonstrates the performance and computational efficiency of the representation methods. The thesis also shows, how both approaches can be used for biological interpretation of learned features. Furthermore, the methods are evaluated on a purpose-built comprehensive test data set for protein function prediction. For efficient learning and prediction, a particular machine learning technique has been extended to meet the requirements of the setup. The results of this approach show the general applicability of the representation methods to the analysis of different problems in protein sequence analysis.Weitere Sprachen
Alignmentbasierte Methoden werden routinemäßig für die funktionale Charakterisierung neuer Proteinsequenzen verwendet. Rechentechnisch sind diese Methoden für große Sequenzmengen jedoch sehr aufwändig. In dieser Arbeit werden zwei neue Methoden zur alignmentfreien Repräsentation und Analyse von Proteinsequenzen vorgestellt. Die Methoden sind in Kombination mit geeigneten Verfahren des maschinellen Lernens zur Detektion entfernter Homologien und zur Proteinklassifikation auf großen Sequenzmengen verwendbar. Die Evaluation der Methoden auf einem weit verbreiteten Testdatensatz zur Detektion entfernter Homologien demonstriert ihre Leistungsfähigkeit sowie die rechentechnische Effizienz und zeigt, wie die Methoden zur biologischen Interpretation gelernter Merkmale genutzt werden können. Weiterhin werden die Methoden auf einem im Rahmen dieser Arbeit erstellten umfassenden Testdatensatz zur Proteinfunktionsvorhersage mit einem angepassten Verfahren des maschinellen Lernens evaluiert. Die Ergebnisse dieses Ansatzes unterstreichen die generelle Eignung der Methoden zur Untersuchung verschiedener Probleme auf dem Gebiet der Proteinsequenzanalyse.
Schlagwörter: Proteinklassifikation; Proteinsequenzanalyse; alignmentfrei; Proteinsequenzrepräsentation; Zielmengenreduktion; Proteinfunktionsvorhersage