Gene prediction in metagenomic sequencing reads
Genvorhersage in metagenomischen Sequenzier-Reads
von Katharina Jasmin Hoff
Datum der mündl. Prüfung:2009-10-08
Erschienen:2009-11-13
Betreuer:Dr. Peter Meinicke
Gutachter:Prof. Dr. Burkhard Morgenstern
Gutachter:Prof. Dr. Wolfgang Liebl
Dateien
Name:hoff.pdf
Size:2.76Mb
Format:PDF
Description:Dissertation
Zusammenfassung
Englisch
Gene prediction is an essential step in the annotation of metagenomic sequencing reads. Since most metagenomic reads cannot be assembled into long contigs, specialized gene prediction tools are required for the analysis of short and anonymous DNA fragments. This work describes the metagenomic gene prediction method 'Orphelia'. It consists of a two-stage machine learning approach. In the first stage, linear discriminants for monocodon usage, dicodon usage and translation initiation sites are used to extract features from dna sequences. In the second stage, an artificial neural network combines these features with open reading frame length and fragment GC-content to compute the probability that this open reading frame encodes a protein. This probability is used for the classification and scoring of gene candidates. Orphelia is available to the scientific community as an intuitive web server application, and as a command line tool. Furthermore, a detailed evaluation of gene prediction accuracy of Orphelia and other tools with respect to sequencing errors an read length is presented. It is demonstrated that ESTScan, a tool for sequencing error compensation in eukaryotic expressed sequence tags, outperforms some metagenomic gene prediction tools on reads with high error rates although it was not designed for the task at hand. The integration of error-compensating methods into metagenomic gene prediction tools would be beneficial to improve metagenome annotation quality.
Keywords: Metagenomics; gene prediction; sequencing errors
Weitere Sprachen
Die Genvorhersage ist ein essentieller
Schritt in der Annotation metagenomischer Sequenzier-Reads. Da die
meisten metagenomischen Reads nicht in lange Contigs assembliert
werden können, sind spezialisierte Genvorhersage-Werkzeuge für die
Analyse von kurzen, anonymen DNA-Fragmenten notwendig. Diese Arbeit
beschreibt die metagenomische Genvorhersagemethode "Orphelia". Sie
besteht aus einem zweistufigen Ansatz des maschinellen Lernens. In
der ersten Stufe werden lineare Diskriminanten für
Monocodonnutzung, Dicodonnutzung und Translationsinitiationsstellen
benutzt, um Merkmale aus den DNA Sequenzen zu extrahieren. Im
zweiten Schritt kombiniert ein künstliches neuronales Netz diese
Merkmale mit der Leserahmenlänge und dem GC-Gehalt des Fragments um
eine Art Wahrscheinlichkeit zu berechnen, mit der ein Leserahmen
ein Protein kodiert. Diese Wahrscheinlichkeit wird für die
Klassifikation und das Scoren der Genkandidaten verwendet. Orphelia
wird der wissenschaftlichen Gemeinschaft als intuitiv nutzbare
Webserver-Anwendung sowie als Kommandozeilenwerkzeug zur Verfügung
gestellt. Des weiteren wird eine detaillierte Evaluation der
Genvorhersagegenauigkeit von Orphelia und anderen Werkzeugen
hinsichtlich von Sequenzierfehlern vorgestellt. Es wird gezeigt,
dass ESTScan, ein Werkzeug für Sequenzierfehlerkompensation in
eukaryotischen exprimierten Sequenzier-Tags, auf Reads mit
bestimmten, höheren Fehlerraten, Gene genauer vorhersagen kann, als
einige metagenomische Genvorhersagewerkzeuge, obwohl ESTScan nicht
für diese Anwendung entwickelt wurde. Die Integration von Fehler
kompensierenden Methoden in metagenomische Genvorhersagewerkzeuge
könnte die Annotationsqualität von Metagenomen verbessern.
Schlagwörter: Metagenomik; Genvorhersage; Sequenzierfehler