dc.contributor.advisor | Waack, Stephan Prof. Dr. | de |
dc.contributor.author | Keller, Oliver | de |
dc.date.accessioned | 2011-02-04T12:11:47Z | de |
dc.date.accessioned | 2013-01-18T13:25:09Z | de |
dc.date.available | 2013-01-30T23:51:03Z | de |
dc.date.issued | 2011-02-04 | de |
dc.identifier.uri | http://hdl.handle.net/11858/00-1735-0000-0006-B6A7-D | de |
dc.identifier.uri | http://dx.doi.org/10.53846/goediss-2592 | |
dc.description.abstract | Neue Sequenzier-Techniken haben die Herstellung
neuer genomischer Sequenzen enorm beschleunigt. Da die
manuelle Durchsicht solcher Datenmengen unmöglich ist,
gibt es einen anhaltenden Bedarf an computergestützten
Werkzeugen für die effiziente und korrekte Annotation
der Daten. Die Vorhersage Protein-kodierender Gene und
die Klassifikation der dadurch gewonnenen
Proteinsequenzen sind wesentliche Teile des
Annotationsprozesses. Zur Zeit sind automatische
Vorhersagen nicht genau genug, um als verlässlich zu
gelten. Während immer mehr neu produzierte Datenmengen
analysiert werden müssen, wächst gleichzeitig die
Verfügbarkeit von Daten, die für die Vorhersage benutzt
werden können. Insbesondere sind Proteindatenbanken,
die Sequenzen und zugehörige Funktion von
Proteinfamilien enthalten, weit verbreitet und bequem
verfügbar, und damit mögliche Quellen für zusätzliche
Information als Eingabe für Genvorhersage-Programme. Im
Mittelpunkt dieser Arbeit steht die Einführung einer
neuen Methode, die zur Verbesserung der
Vorhersagequalität gegenwärtiger
Genvorhersage-Verfahren Proteinprofile nutzt, die aus
einer Sammlung verwandter Proteine generiert werden.
Diese wurde implementiert als Erweiterung des
Genvorhersage-Programms AUGUSTUS, der
Proteinprofil-Extension (PPX). Da für eine korrekte
Klassifikation von Proteinsequenzen insbesondere die
korrekte Vorhersage für die Proteinfamilie typischer
Regionen wichtig ist, ist diese Methode eine
Kombination von Genvorhersage und
Protein-Klassifikation betrachtet werden, die auf die
Verbesserung korrekter Klassifikationsraten abzielt.
Sowohl in der Genvorhersage als auch in der
Proteinklassifikation werden Sequenzen auf der
Grundlage probabilistischer Modelle ausgewertet, die
solche Sequenzen auswählen oder etikettieren, die in
dem jeweiligen Modell hohe Wahrscheinlichkeit haben.
Alle solche Modelle haben die Markov-Eigenschaft
gemein, welche besagt, dass es keine Einflüsse weit
entfernter Sequenzregion auf die lokale Verteilung
gibt, wenn die direkte Nachbarschaft bekannt ist. Diese
Arbeit stellt die speziellen Modelle für die
implementierten Methoden vor. | de |
dc.format.mimetype | application/pdf | de |
dc.language.iso | eng | de |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/ | de |
dc.title | Probabilistic Methods for Computational Annotation of Genomic Sequences | de |
dc.type | doctoralThesis | de |
dc.title.translated | Probabilistische Methoden für computergestützte Genom-Annotation | de |
dc.contributor.referee | Waack, Stephan Prof. Dr. | de |
dc.date.examination | 2011-01-26 | de |
dc.description.abstracteng | New sequencing techniques have increased enormously
the speed that new genomic sequences are produced. As
manual inspection is impossible for this amount of
data, there is an ongoing need for computational tools
that can annotate this data efficiently and accurately.
Essential parts of the annotation process of genomes
are the prediction of protein-coding genes, and the
classification of the obtained protein sequences
according to their function. Currently, computational
predictions are not accurate enough to be considered
overall reliable. At the same time that new data is
produced that needs to be analysed, the amount of
available data that can be used to guide the prediction
is growing as well. In particular, databases containing
annotated proteins and functional descriptions of
protein families, are widespread and easily accessible,
and can provide additional input to gene prediction
programs. In the focus of this thesis is the
introduction of a new method that uses protein profiles
that can be generated from a set of related proteins to
improve the accuracy of present gene prediction
methods. It was implemented as an extension to the gene
prediction program AUGUSTUS, called the ``Protein
Profile Extension'' (PPX). Since a correct
classification of protein sequences relies on accurate
gene predictions especially of regions typical for a
class or family, this method can be viewed a
combination of gene prediction and protein
classification that is designed to improve
classification rates. Both gene prediction and protein
classification commonly evaluate sequences based on
probabilistic models, identifying sequences that have a
high probability under the model. All these models have
in common the Markov property, stating that the direct
neighbourhood determines the sequence composition at
specific location, without long-distance dependencies.
The thesis describes the specific models used in the
presented methods. | de |
dc.contributor.coReferee | Morgenstern, Burkhard Prof. Dr. | de |
dc.subject.ger | Genvorhersage | de |
dc.subject.ger | Protein-Klassifikation | de |
dc.subject.ger | Hidden-Markov-Modelle | de |
dc.subject.ger | semi-Markov-Ketten | de |
dc.subject.ger | Genomannotation | de |
dc.subject.eng | gene prediction | de |
dc.subject.eng | protein classification | de |
dc.subject.eng | hidden Markov models | de |
dc.subject.eng | semi-Markov chains | de |
dc.subject.eng | genome annotation | de |
dc.identifier.urn | urn:nbn:de:gbv:7-webdoc-2802-8 | de |
dc.identifier.purl | webdoc-2802 | de |
dc.affiliation.institute | Fakultät für Mathematik und Informatik | de |
dc.identifier.ppn | 669550361 | de |