Probabilistic Methods for Computational Annotation of Genomic Sequences
Probabilistische Methoden für computergestützte Genom-Annotation
by Oliver Keller
Date of Examination:2011-01-26
Date of issue:2011-02-04
Advisor:Prof. Dr. Stephan Waack
Referee:Prof. Dr. Stephan Waack
Referee:Prof. Dr. Burkhard Morgenstern
Files in this item
Name:keller.pdf
Size:1.15Mb
Format:PDF
Description:Dissertation
Abstract
English
New sequencing techniques have increased enormously the speed that new genomic sequences are produced. As manual inspection is impossible for this amount of data, there is an ongoing need for computational tools that can annotate this data efficiently and accurately. Essential parts of the annotation process of genomes are the prediction of protein-coding genes, and the classification of the obtained protein sequences according to their function. Currently, computational predictions are not accurate enough to be considered overall reliable. At the same time that new data is produced that needs to be analysed, the amount of available data that can be used to guide the prediction is growing as well. In particular, databases containing annotated proteins and functional descriptions of protein families, are widespread and easily accessible, and can provide additional input to gene prediction programs. In the focus of this thesis is the introduction of a new method that uses protein profiles that can be generated from a set of related proteins to improve the accuracy of present gene prediction methods. It was implemented as an extension to the gene prediction program AUGUSTUS, called the ``Protein Profile Extension'' (PPX). Since a correct classification of protein sequences relies on accurate gene predictions especially of regions typical for a class or family, this method can be viewed a combination of gene prediction and protein classification that is designed to improve classification rates. Both gene prediction and protein classification commonly evaluate sequences based on probabilistic models, identifying sequences that have a high probability under the model. All these models have in common the Markov property, stating that the direct neighbourhood determines the sequence composition at specific location, without long-distance dependencies. The thesis describes the specific models used in the presented methods.
Keywords: gene prediction; protein classification; hidden Markov models; semi-Markov chains; genome annotation
Other Languages
Neue Sequenzier-Techniken haben die Herstellung
neuer genomischer Sequenzen enorm beschleunigt. Da die
manuelle Durchsicht solcher Datenmengen unmöglich ist,
gibt es einen anhaltenden Bedarf an computergestützten
Werkzeugen für die effiziente und korrekte Annotation
der Daten. Die Vorhersage Protein-kodierender Gene und
die Klassifikation der dadurch gewonnenen
Proteinsequenzen sind wesentliche Teile des
Annotationsprozesses. Zur Zeit sind automatische
Vorhersagen nicht genau genug, um als verlässlich zu
gelten. Während immer mehr neu produzierte Datenmengen
analysiert werden müssen, wächst gleichzeitig die
Verfügbarkeit von Daten, die für die Vorhersage benutzt
werden können. Insbesondere sind Proteindatenbanken,
die Sequenzen und zugehörige Funktion von
Proteinfamilien enthalten, weit verbreitet und bequem
verfügbar, und damit mögliche Quellen für zusätzliche
Information als Eingabe für Genvorhersage-Programme. Im
Mittelpunkt dieser Arbeit steht die Einführung einer
neuen Methode, die zur Verbesserung der
Vorhersagequalität gegenwärtiger
Genvorhersage-Verfahren Proteinprofile nutzt, die aus
einer Sammlung verwandter Proteine generiert werden.
Diese wurde implementiert als Erweiterung des
Genvorhersage-Programms AUGUSTUS, der
Proteinprofil-Extension (PPX). Da für eine korrekte
Klassifikation von Proteinsequenzen insbesondere die
korrekte Vorhersage für die Proteinfamilie typischer
Regionen wichtig ist, ist diese Methode eine
Kombination von Genvorhersage und
Protein-Klassifikation betrachtet werden, die auf die
Verbesserung korrekter Klassifikationsraten abzielt.
Sowohl in der Genvorhersage als auch in der
Proteinklassifikation werden Sequenzen auf der
Grundlage probabilistischer Modelle ausgewertet, die
solche Sequenzen auswählen oder etikettieren, die in
dem jeweiligen Modell hohe Wahrscheinlichkeit haben.
Alle solche Modelle haben die Markov-Eigenschaft
gemein, welche besagt, dass es keine Einflüsse weit
entfernter Sequenzregion auf die lokale Verteilung
gibt, wenn die direkte Nachbarschaft bekannt ist. Diese
Arbeit stellt die speziellen Modelle für die
implementierten Methoden vor.
Schlagwörter: Genvorhersage; Protein-Klassifikation; Hidden-Markov-Modelle; semi-Markov-Ketten; Genomannotation