Zur Kurzanzeige

Probabilistic Methods for Computational Annotation of Genomic Sequences

dc.contributor.advisorWaack, Stephan Prof. Dr.de
dc.contributor.authorKeller, Oliverde
dc.date.accessioned2011-02-04T12:11:47Zde
dc.date.accessioned2013-01-18T13:25:09Zde
dc.date.available2013-01-30T23:51:03Zde
dc.date.issued2011-02-04de
dc.identifier.urihttp://hdl.handle.net/11858/00-1735-0000-0006-B6A7-Dde
dc.identifier.urihttp://dx.doi.org/10.53846/goediss-2592
dc.description.abstractNeue Sequenzier-Techniken haben die Herstellung neuer genomischer Sequenzen enorm beschleunigt. Da die manuelle Durchsicht solcher Datenmengen unmöglich ist, gibt es einen anhaltenden Bedarf an computergestützten Werkzeugen für die effiziente und korrekte Annotation der Daten. Die Vorhersage Protein-kodierender Gene und die Klassifikation der dadurch gewonnenen Proteinsequenzen sind wesentliche Teile des Annotationsprozesses. Zur Zeit sind automatische Vorhersagen nicht genau genug, um als verlässlich zu gelten. Während immer mehr neu produzierte Datenmengen analysiert werden müssen, wächst gleichzeitig die Verfügbarkeit von Daten, die für die Vorhersage benutzt werden können. Insbesondere sind Proteindatenbanken, die Sequenzen und zugehörige Funktion von Proteinfamilien enthalten, weit verbreitet und bequem verfügbar, und damit mögliche Quellen für zusätzliche Information als Eingabe für Genvorhersage-Programme. Im Mittelpunkt dieser Arbeit steht die Einführung einer neuen Methode, die zur Verbesserung der Vorhersagequalität gegenwärtiger Genvorhersage-Verfahren Proteinprofile nutzt, die aus einer Sammlung verwandter Proteine generiert werden. Diese wurde implementiert als Erweiterung des Genvorhersage-Programms AUGUSTUS, der Proteinprofil-Extension (PPX). Da für eine korrekte Klassifikation von Proteinsequenzen insbesondere die korrekte Vorhersage für die Proteinfamilie typischer Regionen wichtig ist, ist diese Methode eine Kombination von Genvorhersage und Protein-Klassifikation betrachtet werden, die auf die Verbesserung korrekter Klassifikationsraten abzielt. Sowohl in der Genvorhersage als auch in der Proteinklassifikation werden Sequenzen auf der Grundlage probabilistischer Modelle ausgewertet, die solche Sequenzen auswählen oder etikettieren, die in dem jeweiligen Modell hohe Wahrscheinlichkeit haben. Alle solche Modelle haben die Markov-Eigenschaft gemein, welche besagt, dass es keine Einflüsse weit entfernter Sequenzregion auf die lokale Verteilung gibt, wenn die direkte Nachbarschaft bekannt ist. Diese Arbeit stellt die speziellen Modelle für die implementierten Methoden vor.de
dc.format.mimetypeapplication/pdfde
dc.language.isoengde
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/de
dc.titleProbabilistic Methods for Computational Annotation of Genomic Sequencesde
dc.typedoctoralThesisde
dc.title.translatedProbabilistische Methoden für computergestützte Genom-Annotationde
dc.contributor.refereeWaack, Stephan Prof. Dr.de
dc.date.examination2011-01-26de
dc.description.abstractengNew sequencing techniques have increased enormously the speed that new genomic sequences are produced. As manual inspection is impossible for this amount of data, there is an ongoing need for computational tools that can annotate this data efficiently and accurately. Essential parts of the annotation process of genomes are the prediction of protein-coding genes, and the classification of the obtained protein sequences according to their function. Currently, computational predictions are not accurate enough to be considered overall reliable. At the same time that new data is produced that needs to be analysed, the amount of available data that can be used to guide the prediction is growing as well. In particular, databases containing annotated proteins and functional descriptions of protein families, are widespread and easily accessible, and can provide additional input to gene prediction programs. In the focus of this thesis is the introduction of a new method that uses protein profiles that can be generated from a set of related proteins to improve the accuracy of present gene prediction methods. It was implemented as an extension to the gene prediction program AUGUSTUS, called the ``Protein Profile Extension'' (PPX). Since a correct classification of protein sequences relies on accurate gene predictions especially of regions typical for a class or family, this method can be viewed a combination of gene prediction and protein classification that is designed to improve classification rates. Both gene prediction and protein classification commonly evaluate sequences based on probabilistic models, identifying sequences that have a high probability under the model. All these models have in common the Markov property, stating that the direct neighbourhood determines the sequence composition at specific location, without long-distance dependencies. The thesis describes the specific models used in the presented methods.de
dc.contributor.coRefereeMorgenstern, Burkhard Prof. Dr.de
dc.subject.gerGenvorhersagede
dc.subject.gerProtein-Klassifikationde
dc.subject.gerHidden-Markov-Modellede
dc.subject.gersemi-Markov-Kettende
dc.subject.gerGenomannotationde
dc.subject.enggene predictionde
dc.subject.engprotein classificationde
dc.subject.enghidden Markov modelsde
dc.subject.engsemi-Markov chainsde
dc.subject.enggenome annotationde
dc.identifier.urnurn:nbn:de:gbv:7-webdoc-2802-8de
dc.identifier.purlwebdoc-2802de
dc.affiliation.instituteFakultät für Mathematik und Informatikde
dc.identifier.ppn669550361de


Dateien

Thumbnail

Das Dokument erscheint in:

Zur Kurzanzeige