Improvement of the jpHMM approach to recombination detection in viral genomes and its application to HIV and HBV
Verbesserung des jpHMM-Ansatzes zur Rekombinationsvorhersage in viralen Genomen und dessen Anwendung auf HIV und HBV
by Anne-Kathrin Schultz
Date of Examination:2011-04-27
Date of issue:2011-08-08
Advisor:Prof. Dr. Mario Stanke
Referee:Prof. Dr. Burkhard Morgenstern
Referee:Prof. Dr. Stephan Waack
Files in this item
Name:schultz.pdf
Size:2.01Mb
Format:PDF
Description:Dissertation
Abstract
English
Accurate virus genotyping and the detection of recombinant strains are of crucial importance for understanding viral evolution as well as the design of potential vaccines and treatment strategies. A very accurate tool for detecting recombinations in genomic HIV-1 sequences is jpHMM (jumping profile Hidden Markov Model). For a given sequence, it predicts recombination breakpoints and assigns a parental subtype to each segment in between two breakpoints. In this thesis, modifications and extensions of jpHMM are carried out to improve the reliability of the recombination prediction, to reduce the runtime of the program and to allow the analysis of recombinations in circular genomes.As incorrect subtype assignments or recombination predictions may lead to wrong conclusions in epidemiological or vaccine research, it is important to assess the reliability of the predicted recombination in a particular sequence. For this reason, the output of jpHMM is extended to include a tagging of regions where the model is uncertain about the predicted subtype and an interval estimate for each predicted breakpoint. It is shown that this extension strongly improves the reliability of the recombination prediction.To allow an efficient application of jpHMM to large data sets or species with a large number of subtypes, the complex architecture of the model is substantially modified. Evaluation on HIV-1 as well as hepatitis B virus (HBV) data shows that these modifications lead to a considerable reduction of the runtime of the program. Furthermore, an extension of jpHMM to detect recombinations in viruses with circular genomes such as HBV is introduced. Recombination analysis in circular genomes is usually done on artificially linearized sequences using linear models. Since these models are normally unable to model dependencies between nucleotides at the 5 and 3 end of a sequence, this can result in inaccurate predictions of breakpoints and thus in incorrect classifications of circular genomes. In contrast, the circular jpHMM takes into account the circularity of the genome. Its accuracy is evaluated on a large set of recombinant HBV sequences. Additionally, about 3000 full-length HBV sequences are studied to detect so-called circulating recombinant forms (CRF). For this, certain criteria for classifying recombinant HBV sequences are proposed. Based on these criteria, 17 CRFs can be identified.
Keywords: Recombination prediction; Genotyping; HIV; Hepatitis B; HMM; Hidden Markov Model
Other Languages
Präzise Genotypisierung von Viren und die Erkennung rekombinanter Stämme ist sowohl für das Verständnis der viralen Evolution als auch für die Entwicklung potenzieller Impfstoffe und Behandlungsmethoden von entscheidender Bedeutung. Ein sehr genaues Programm zur Erkennung von Rekombinationen in genomischen HIV-1-Sequenzen ist jpHMM (jumping profile Hidden Markov Model). Für eine gegebene Sequenz sagt es Rekombinationsbruchstellen (Breakpoints) vorher und ordnet jedem Segment zwischen zwei Breakpoints einen Elternsubtyp zu. In dieser Arbeit werden Modifikationen und Erweiterungen von jpHMM durchgeführt, um die Zuverlässigkeit der Rekombinationsvorhersage zu verbessern, die Laufzeit des Programms zu reduzieren und die Analyse von Rekombinationen in zirkulären Genomen zu erlauben.Da falsche Subtypzuordnungen oder Rekombinationsvorhersagen zu falschen Schlussfolgerungen sowohl in der epidemiologischen als auch in der Impfstoffforschung führen können, ist es wichtig, die Zuverlässigkeit der vorhergesagten Rekombination in einer bestimmten Sequenz zu beurteilen. Aus diesem Grund wird die Ausgabe von jpHMM erweitert, so dass sie eine Markierung von Regionen mit unsicherer Vorhersage des Elternsubtyps und einen Intervallschätzer für jeden vorhergesagten Breakpoint enthält. Es wird gezeigt, dass diese Erweiterung die Zuverlässigkeit der Rekombinationsvorhersage entscheidend verbessert.Um eine effiziente Anwendung von jpHMM auf große Datensätze oder Spezies mit einer großen Anzahl an Subtypen zu erlauben, wird die komplexe Architektur des Modells wesentlich modifiziert. Die Evaluierung auf HIV-1- und Hepatitis-B-Virus (HBV)-Daten zeigt, dass diese Modifikationen zu einer beträchtlichen Reduzierung der Laufzeit des Programms führen.Ferner wird eine Erweiterung von jpHMM zur Erkennung von Rekombinationen in Viren mit zirkulärem Genom, wie z.B. dem HBV, vorgestellt. Die Analyse von Rekombinationen in zirkulären Genomen erfolgt gewöhnlich auf künstlich linearisierten Sequenzen unter Verwendung linearer Modelle. Da diese Modelle jedoch normalerweise nicht in der Lage sind, Abhängigkeiten zwischen Nukleotiden am 5 - und 3 -Ende einer Sequenz zu modellieren, kann dies zu falschen Breakpointvorhersagen und somit zu falschen Klassifikationen zirkulärer Genome führen. Im Gegensatz dazu berücksichtigt das zirkuläre jpHMM die Zirkularität des Genoms. Dessen Genauigkeit wird auf einer großen Menge rekombinanter HBV-Sequenzen evaluiert. Außerdem werden etwa 3000 vollständige HBV-Sequenzen untersucht, um verbreitete rekombinante Formen, sogenannte circulating recombinant forms (CRF), zu entdecken. Zu diesem Zweck werden bestimmte Kriterien zur Klassifizierung rekombinanter HBV-Sequenzen vorgeschlagen. Basierend auf diesen Kriterien können 17 CRFs identifiziert werden.
Schlagwörter: Rekombinationsvorhersage; Genotypisierung; HIV; Hepatitis B; HMM; Hidden-Markov-Modell