A Biased Urn Model for Taxonomic Identification
Ein gewichtetes Urnenmodell zur taxonomischen Identifikation
by Katharina Surovcik
Date of Examination:2008-06-26
Date of issue:2009-03-24
Advisor:Prof. Dr. Stephan Waack
Referee:Prof. Dr. Stephan Waack
Referee:Prof. Dr. Manfred Denker
Files in this item
Name:surovcik.pdf
Size:1.48Mb
Format:PDF
Description:Dissertation
Abstract
English
We consider a stochastic model for the problem of taxonomic identification in bacterial genomes, motivated by the detection of horizontal gene transfer between non-closely related species. We focus on modelling the dinucleotide bias in prokaryotic genomes. To this end, we construct a biased urn model based on the noncentral hypergeometric distribution. The model, which is designed in four steps, is shown to be well-defined and sufficiently general to capture either dinucleotide with respect to the positions in the codon and combinations thereof. To complement existing codon usage approaches, we emphasise the intercodon transition dinucleotide.We show that the dinucleotide bias can be captured by a 9-tupel of parameters for which approximative estimators are available. Additionally, we show that no further reduction of this parameter set is possible. The performance of the horizontal gene transfer detection procedure based on this model is evaluated on benchmark datasets and found to be competitive with existing approaches. Finally, biological relations are found to reflect themselves in the geometry of the parameter space, enabling us to predict the phylum of the organism that a given genomic sequence belongs to. This allows applications in the context of metagenomics for which we sketch a possible procedure.
Keywords: horizontal gene transfer; biased urn model; dinucleotide model; non-central hypergeometric distribution
Other Languages
Wir betrachten ein stochastisches Modell für das
Problem taxonomischer Identifikation in bakteriellen
Genomen, welches durch die Erkennung horizontalen
Gentransfer zwischen entfernt verwandten Species
motiviert ist. Wir konzentrieren uns auf die
Modellierung der Bevorzugung von Dinukleotiden in
prokaryotischen Genomen. Dazu konstruieren wir ein
gewichtetes Urnenmodell mit Hilfe der nichtzentrierten
hypergeometrischen Verteilung. Es wird gezeigt, dass
das Modell, welches sich in vier Schritten aufbaut,
wohldefiniert ist. Des weiteren ist es hinreichend
allgemein, um beliebige Dinukleotide im Hinblick auf
die Position innerhalb des Codons sowie deren
Kombinationen zu behandeln. Zur Ergänzung bestehender
Codon Usage Ansätze heben wir das
Intercodon-Übergangsdinukleotid hervor.Wir zeigen, dass sich die Bevorzugung von
Dinukleotiden durch ein 9-Parameter-Tupel, für welches
approximative Schätzer verfügbar sind, beschreiben
lässt. Zusätzlich zeigen wir, dass eine weitere
Parameterreduktion unmöglich ist. Die
Leistungsfähigkeit der Detektionsprozedur für
horizontalen Gentransfer, die auf diesem Modell
basiert, wird an Hand eines Benchmark-Datensatzes
evaluiert und kann mit bisherigen Ansätzen
konkurrieren.
Schließlich wird gezeigt, dass sich die biologischen
Verwandtschaftsbeziehungen in der Geometrie des
Parameterraumes widerspiegeln, was es uns ermöglicht,
das Phylum zum Organismus, aus welchem eine
Genomsequenz stammt, vorherzusagen. Das erlaubt
Anwendungen im Bereich der Metagenomik, für die wir
eine denkbare Vorgehensweise darlegen.
Schlagwörter: Horizontaler Gentransfer; Gewichtetes Urnenmodell; Dinukleotidmodell; Nichtzentrierte Hypergeometrische Verteilung