Probabilistic Methods for Computational Annotation of Genomic Sequences

Keller, Oliver

dc.contributor.advisor	Waack, Stephan Prof. Dr.	de
dc.contributor.author	Keller, Oliver	de
dc.date.accessioned	2011-02-04T12:11:47Z	de
dc.date.accessioned	2013-01-18T13:25:09Z	de
dc.date.available	2013-01-30T23:51:03Z	de
dc.date.issued	2011-02-04	de
dc.identifier.uri	http://hdl.handle.net/11858/00-1735-0000-0006-B6A7-D	de
dc.identifier.uri	http://dx.doi.org/10.53846/goediss-2592
dc.description.abstract	Neue Sequenzier-Techniken haben die Herstellung neuer genomischer Sequenzen enorm beschleunigt. Da die manuelle Durchsicht solcher Datenmengen unmöglich ist, gibt es einen anhaltenden Bedarf an computergestützten Werkzeugen für die effiziente und korrekte Annotation der Daten. Die Vorhersage Protein-kodierender Gene und die Klassifikation der dadurch gewonnenen Proteinsequenzen sind wesentliche Teile des Annotationsprozesses. Zur Zeit sind automatische Vorhersagen nicht genau genug, um als verlässlich zu gelten. Während immer mehr neu produzierte Datenmengen analysiert werden müssen, wächst gleichzeitig die Verfügbarkeit von Daten, die für die Vorhersage benutzt werden können. Insbesondere sind Proteindatenbanken, die Sequenzen und zugehörige Funktion von Proteinfamilien enthalten, weit verbreitet und bequem verfügbar, und damit mögliche Quellen für zusätzliche Information als Eingabe für Genvorhersage-Programme. Im Mittelpunkt dieser Arbeit steht die Einführung einer neuen Methode, die zur Verbesserung der Vorhersagequalität gegenwärtiger Genvorhersage-Verfahren Proteinprofile nutzt, die aus einer Sammlung verwandter Proteine generiert werden. Diese wurde implementiert als Erweiterung des Genvorhersage-Programms AUGUSTUS, der Proteinprofil-Extension (PPX). Da für eine korrekte Klassifikation von Proteinsequenzen insbesondere die korrekte Vorhersage für die Proteinfamilie typischer Regionen wichtig ist, ist diese Methode eine Kombination von Genvorhersage und Protein-Klassifikation betrachtet werden, die auf die Verbesserung korrekter Klassifikationsraten abzielt. Sowohl in der Genvorhersage als auch in der Proteinklassifikation werden Sequenzen auf der Grundlage probabilistischer Modelle ausgewertet, die solche Sequenzen auswählen oder etikettieren, die in dem jeweiligen Modell hohe Wahrscheinlichkeit haben. Alle solche Modelle haben die Markov-Eigenschaft gemein, welche besagt, dass es keine Einflüsse weit entfernter Sequenzregion auf die lokale Verteilung gibt, wenn die direkte Nachbarschaft bekannt ist. Diese Arbeit stellt die speziellen Modelle für die implementierten Methoden vor.	de
dc.format.mimetype	application/pdf	de
dc.language.iso	eng	de
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/	de
dc.title	Probabilistic Methods for Computational Annotation of Genomic Sequences	de
dc.type	doctoralThesis	de
dc.title.translated	Probabilistische Methoden für computergestützte Genom-Annotation	de
dc.contributor.referee	Waack, Stephan Prof. Dr.	de
dc.date.examination	2011-01-26	de
dc.description.abstracteng	New sequencing techniques have increased enormously the speed that new genomic sequences are produced. As manual inspection is impossible for this amount of data, there is an ongoing need for computational tools that can annotate this data efficiently and accurately. Essential parts of the annotation process of genomes are the prediction of protein-coding genes, and the classification of the obtained protein sequences according to their function. Currently, computational predictions are not accurate enough to be considered overall reliable. At the same time that new data is produced that needs to be analysed, the amount of available data that can be used to guide the prediction is growing as well. In particular, databases containing annotated proteins and functional descriptions of protein families, are widespread and easily accessible, and can provide additional input to gene prediction programs. In the focus of this thesis is the introduction of a new method that uses protein profiles that can be generated from a set of related proteins to improve the accuracy of present gene prediction methods. It was implemented as an extension to the gene prediction program AUGUSTUS, called the ``Protein Profile Extension'' (PPX). Since a correct classification of protein sequences relies on accurate gene predictions especially of regions typical for a class or family, this method can be viewed a combination of gene prediction and protein classification that is designed to improve classification rates. Both gene prediction and protein classification commonly evaluate sequences based on probabilistic models, identifying sequences that have a high probability under the model. All these models have in common the Markov property, stating that the direct neighbourhood determines the sequence composition at specific location, without long-distance dependencies. The thesis describes the specific models used in the presented methods.	de
dc.contributor.coReferee	Morgenstern, Burkhard Prof. Dr.	de
dc.subject.ger	Genvorhersage	de
dc.subject.ger	Protein-Klassifikation	de
dc.subject.ger	Hidden-Markov-Modelle	de
dc.subject.ger	semi-Markov-Ketten	de
dc.subject.ger	Genomannotation	de
dc.subject.eng	gene prediction	de
dc.subject.eng	protein classification	de
dc.subject.eng	hidden Markov models	de
dc.subject.eng	semi-Markov chains	de
dc.subject.eng	genome annotation	de
dc.identifier.urn	urn:nbn:de:gbv:7-webdoc-2802-8	de
dc.identifier.purl	webdoc-2802	de
dc.affiliation.institute	Fakultät für Mathematik und Informatik	de
dc.identifier.ppn	669550361	de

Dateien

Name:keller.pdf

Größe:1.153Mb

Format:PDF

Beschreibung:Dissertation

Öffnen

Name:: keller.pdf
Größe:: 1.153Mb
Format:: PDF
Beschreibung:: Dissertation

Öffnen

Das Dokument erscheint in:

Fakultät für Mathematik und Informatik (inkl. GAUSS) [519]

Zur Kurzanzeige