• Deutsch
    • English
  • English 
    • Deutsch
    • English
  • Login
Item View 
  •   Home
  • Naturwissenschaften, Mathematik und Informatik
  • Fakultät für Mathematik und Informatik (inkl. GAUSS)
  • Item View
  •   Home
  • Naturwissenschaften, Mathematik und Informatik
  • Fakultät für Mathematik und Informatik (inkl. GAUSS)
  • Item View
JavaScript is disabled for your browser. Some features of this site may not work without it.

Probabilistic Methods for Computational Annotation of Genomic Sequences

Probabilistische Methoden für computergestützte Genom-Annotation

by Oliver Keller
Doctoral thesis
Date of Examination:2011-01-26
Date of issue:2011-02-04
Advisor:Prof. Dr. Stephan Waack
Referee:Prof. Dr. Stephan Waack
Referee:Prof. Dr. Burkhard Morgenstern
crossref-logoPersistent Address: http://dx.doi.org/10.53846/goediss-2592

 

 

Files in this item

Name:keller.pdf
Size:1.15Mb
Format:PDF
Description:Dissertation
ViewOpen

The following license files are associated with this item:


Abstract

English

New sequencing techniques have increased enormously the speed that new genomic sequences are produced. As manual inspection is impossible for this amount of data, there is an ongoing need for computational tools that can annotate this data efficiently and accurately. Essential parts of the annotation process of genomes are the prediction of protein-coding genes, and the classification of the obtained protein sequences according to their function. Currently, computational predictions are not accurate enough to be considered overall reliable. At the same time that new data is produced that needs to be analysed, the amount of available data that can be used to guide the prediction is growing as well. In particular, databases containing annotated proteins and functional descriptions of protein families, are widespread and easily accessible, and can provide additional input to gene prediction programs. In the focus of this thesis is the introduction of a new method that uses protein profiles that can be generated from a set of related proteins to improve the accuracy of present gene prediction methods. It was implemented as an extension to the gene prediction program AUGUSTUS, called the ``Protein Profile Extension'' (PPX). Since a correct classification of protein sequences relies on accurate gene predictions especially of regions typical for a class or family, this method can be viewed a combination of gene prediction and protein classification that is designed to improve classification rates. Both gene prediction and protein classification commonly evaluate sequences based on probabilistic models, identifying sequences that have a high probability under the model. All these models have in common the Markov property, stating that the direct neighbourhood determines the sequence composition at specific location, without long-distance dependencies. The thesis describes the specific models used in the presented methods.
Keywords: gene prediction; protein classification; hidden Markov models; semi-Markov chains; genome annotation

Other Languages

Neue Sequenzier-Techniken haben die Herstellung neuer genomischer Sequenzen enorm beschleunigt. Da die manuelle Durchsicht solcher Datenmengen unmöglich ist, gibt es einen anhaltenden Bedarf an computergestützten Werkzeugen für die effiziente und korrekte Annotation der Daten. Die Vorhersage Protein-kodierender Gene und die Klassifikation der dadurch gewonnenen Proteinsequenzen sind wesentliche Teile des Annotationsprozesses. Zur Zeit sind automatische Vorhersagen nicht genau genug, um als verlässlich zu gelten. Während immer mehr neu produzierte Datenmengen analysiert werden müssen, wächst gleichzeitig die Verfügbarkeit von Daten, die für die Vorhersage benutzt werden können. Insbesondere sind Proteindatenbanken, die Sequenzen und zugehörige Funktion von Proteinfamilien enthalten, weit verbreitet und bequem verfügbar, und damit mögliche Quellen für zusätzliche Information als Eingabe für Genvorhersage-Programme. Im Mittelpunkt dieser Arbeit steht die Einführung einer neuen Methode, die zur Verbesserung der Vorhersagequalität gegenwärtiger Genvorhersage-Verfahren Proteinprofile nutzt, die aus einer Sammlung verwandter Proteine generiert werden. Diese wurde implementiert als Erweiterung des Genvorhersage-Programms AUGUSTUS, der Proteinprofil-Extension (PPX). Da für eine korrekte Klassifikation von Proteinsequenzen insbesondere die korrekte Vorhersage für die Proteinfamilie typischer Regionen wichtig ist, ist diese Methode eine Kombination von Genvorhersage und Protein-Klassifikation betrachtet werden, die auf die Verbesserung korrekter Klassifikationsraten abzielt. Sowohl in der Genvorhersage als auch in der Proteinklassifikation werden Sequenzen auf der Grundlage probabilistischer Modelle ausgewertet, die solche Sequenzen auswählen oder etikettieren, die in dem jeweiligen Modell hohe Wahrscheinlichkeit haben. Alle solche Modelle haben die Markov-Eigenschaft gemein, welche besagt, dass es keine Einflüsse weit entfernter Sequenzregion auf die lokale Verteilung gibt, wenn die direkte Nachbarschaft bekannt ist. Diese Arbeit stellt die speziellen Modelle für die implementierten Methoden vor.
Schlagwörter: Genvorhersage; Protein-Klassifikation; Hidden-Markov-Modelle; semi-Markov-Ketten; Genomannotation
 

Statistik

Publish here

Browse

All of eDissFaculties & ProgramsIssue DateAuthorAdvisor & RefereeAdvisorRefereeTitlesTypeThis FacultyIssue DateAuthorAdvisor & RefereeAdvisorRefereeTitlesType

Help & Info

Publishing on eDissPDF GuideTerms of ContractFAQ

Contact Us | Impressum | Cookie Consents | Data Protection Information
eDiss Office - SUB Göttingen (Central Library)
Platz der Göttinger Sieben 1
Mo - Fr 10:00 – 12:00 h


Tel.: +49 (0)551 39-27809 (general inquiries)
Tel.: +49 (0)551 39-28655 (open access/parallel publications)
ediss_AT_sub.uni-goettingen.de
[Please replace "_AT_" with the "@" sign when using our email adresses.]
Göttingen State and University Library | Göttingen University
Medicine Library (Doctoral candidates of medicine only)
Robert-Koch-Str. 40
Mon – Fri 8:00 – 24:00 h
Sat - Sun 8:00 – 22:00 h
Holidays 10:00 – 20:00 h
Tel.: +49 551 39-8395 (general inquiries)
Tel.: +49 (0)551 39-28655 (open access/parallel publications)
bbmed_AT_sub.uni-goettingen.de
[Please replace "_AT_" with the "@" sign when using our email adresses.]