Zur Kurzanzeige

Methods and software to enhance statistical analysis in large scale problems in breeding and quantitative genetics

dc.contributor.advisorSimianer, Henner Prof. Dr.
dc.contributor.authorPook, Torsten
dc.date.accessioned2019-11-08T09:41:18Z
dc.date.available2019-11-08T09:41:18Z
dc.date.issued2019-11-08
dc.identifier.urihttp://hdl.handle.net/21.11130/00-1735-0000-0005-129C-7
dc.identifier.urihttp://dx.doi.org/10.53846/goediss-7709
dc.language.isoengde
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject.ddc630de
dc.titleMethods and software to enhance statistical analysis in large scale problems in breeding and quantitative geneticsde
dc.typedoctoralThesisde
dc.contributor.refereeSimianer, Henner Prof. Dr.
dc.date.examination2019-06-27
dc.description.abstractgerDas Thema dieser Arbeit ist die Entwicklung von Methoden und Software für die Zucht und die quantitative Genetik um statistische Probleme zu bewältigen, die im Zusammenhang mit immer größer werden Datensätzen und komplexerer Fragestellungen auftreten. In Kapitel 1 wird eine kurze Einführung in das Thema Big Data gegeben und die für die folgenden Kapitel relevanten Themen werden vorgestellt. In Kapitel 2 wird eine neue Methode (HaploBlocker) zur Identifizierung von Haplotypenblöcken und -bibliotheken aufzeigt, die im zugehörigen R-Paket HaploBlocker implementiert ist. Im Gegensatz zu gängigen Methoden zur Identifizierung von Haplotypenblöcken nutzt HaploBlocker nicht nur populationsweite Maße des Kopplungsungleichgewichts (linkage disequilibrium, LD), wie die Korrelation zwischen Markern, sondern analysiert zudem Gruppen von Haplotypen auf Segmente mit gleichem genetischen Ursprung (identity-by-descent, IBD). Ein Haplotypenblock ist definiert als eine Sequenz von genetischen Markern, die mit einer vordefinierten Mindestfrequenz in der Population auftritt und nur Haplotypen mit ähnlicher Sequenz von Markern tragen entsprechenden Block. Da die identifizierten Blöcke in HaploBlocker subpopulationsspezifisch sind, können wesentlich längere Haplotypenblöcke als in herkömmlichen Methoden identifiziert werden. Dies wiederum führt nicht nur zu einer deutlichen Reduzierung der Anzahl der Variablen für die nachfolgende Analysen, sondern auch zu potenziell aussagekräftigeren Variablen als einzelne Marker (single nucleotide polymorphism, SNP). Der Nutzen von HaploBlocker wird durch die Anwendung auf einen Datensatz von 501 doppelhaploider Linien einer Europäischen Maislandrasse mit 501'124 SNPs verdeutlicht. Der entsprechende Datensatz konnte durch Nutzung von HaploBlocker auf 2'991 Haplotypenblöcke mit einer durchschnittlichen Länge von 2'685 SNPs reduziert werden. Trotz der geringeren Variablenzahl können durch den Blockdatensatz noch 94% der genetischen Diversität des Ursprungsdatensatzes erklärt werden. Bevor genetische Daten mit Methoden wie HaploBlocker analysiert werden können, ist die Durchführung der Qualitätskontrolle erforderlich. In Kapitel 3 wird mit der Imputation ein zentraler Bestandteil der Qualitätskontrolle genauer beleuchtet. Die Phasinggenauigkeit ist für HaploBlocker von zentraler Bedeutung und ist somit ein besonderer Schwerpunkt in der Analyse. Darüber hinaus wurde zunächst grundsätzlich die Anwendbarkeit von Imputationstechniken für Datensätze aus der Tier- und Pflanzenzucht überprüft, da gängige Methoden für den Einsatz in der Humangenetik entwickelt wurden. Insbesondere die Software BEAGLE wird hier näher betrachtet, da sie es dem Benutzer ermöglicht durch das Anpassen von Inputparametern den Algorithmus auf die genetische Struktur des Datensatzes anzupassen. Die Fehlerraten der Imputation können durch Parameteranpassungen, wie der effektiven Populationsgroße, um bis zu 98.5% reduziert werden. Darüber hinaus werden weitere Einflussfaktoren für die Imputation, wie die Auswahl eines geeigneten Referenzdatensatzes und Referenzgenoms, betrachtet. In Kapitel 4 wird die im Rahmen dieser Arbeit entwickelte Software MoBPS (Modular Breeding Program Simulator) vorgestellt. MoBPS ist ein R-Paket, dass es Wissenschaftlern und Züchtern ermöglicht sowohl Zuchtprogramme als auch historische Populationen zu simulieren. Daraus resultierende Zuchtprogramme können anhand ihrer ökonomischen Auswirkungen, aber auch basierend auf ihrem resultierenden Zuchtfortschritt und dem Inzuchtsniveau verglichen werden. MoBPS nutzt ein modulares und flexibles Design, das die Simulation verschiedenster Zuchtprogramme ermöglicht, aber dennoch sehr effizient in Bezug auf Rechenzeit und Speicherauslastung ist. Im ersten Teil der Diskussion (Kapitel 5) wird der Einfluss der Imputation auf die Struktur verschiedener Haplotypisierungsmethoden diskutiert und anschließend der Einsatz von HaploBlocker für die Zuchtwertschätzung analysiert. In zweiten Teil der Diskussion werden verschiedene Zuchtprogramme, die durch MoBPS simuliert werden können, vorgestellt und potentielle nachfolgende Analysen werden kurz diskutiert. Besonderer Augenmerk wird hier auf die Nutzung von Methoden der Genom-Editierung zur Erhöhung des Zuchtfortschritt für quantitative Merkmale gelegt. Im dritten und letzten Abschnitt dieses Kapitels wird ein Ausblick auf mögliche Anwendungsgebiete und Erweiterungen für HaploBlocker und MoBPS gegeben. Im Anhang dieser Arbeit werden die User-Manuals für die beiden in dieser Arbeit entwickelten R-Pakete gegeben (Anhang A und B).de
dc.description.abstractengThe aim of this thesis is the development of methods and software to enhance the statistical analysis in large scale problems in breeding and quantitative genetics. In Chapter 1 a brief introduction to the subject of big data is given and the topics relevant for the following chapters are presented. In Chapter 2 a new method (HaploBlocker) for the identification of haplotype blocks and libraries is presented that is also implemented in the associated R-package HaploBlocker. In contrast to commonly applied methods for the identifying haplotype blocks, HaploBlocker not only utilizes population-wide measures of linkage disequilibrium (LD), such as the correlation between genetic markers, but also analyzes groups of haplotypes for segments with the same genetic origin identity-by-descent, IBD). Haplotype blocks are defined as a sequence of genetic markers that has a predefined minimum frequency in the population and only haplotypes with a similar sequence of markers are considered to carry that block. Since the identified blocks are subpopulation specific, much longer haplotype blocks than in conventional methods can be identified. This in turn leads not only to a substantial reduction in the number of variables for later analysis, but also to potentially more informative variables than single nucleotide polymorphisms (SNP). By using HaploBlocker a dataset of 501 doubled haploid lines in a European maize landrace genotyped at 501'124 SNPs was reduced to 2'991 haplotype blocks with an average length of 2'685 SNPs. Despite the lower number of variables, 94% of the genetic diversity of the original dataset can be explained by the block dataset. Steps of quality control must be performed before genetic data can be analyzed in methods such as HaploBlocker. A central part of any quality control protocol is imputation, which is discussed in Chapter 3. The phasing accuracy is of central importance for HaploBlocker and is therefore a special focus in the analysis. In addition, the applicability of commonly applied imputation software for livestock and crop datasets is evaluated, as commonly used tools were originally developed for the use in human genetics. In particular, the software BEAGLE is examined here, as it enables the user to adapt the algorithm to the genetic structure of the dataset by tuning parameter settings. The error rates of imputation were reduced by up to 98.5% by parameter tuning such as the effective population size. In addition, further influencing factors for imputation such as the construction of a suitable reference dataset and the choice and validation of the used reference genome were considered. In Chapter 4 the software MoBPS (Modular Breeding Program Simulator) that was developed within the scope of this thesis, is presented. MoBPS is an R-package that can assist scientists and breeders to simulate both breeding programs and historical populations. Among others, resulting breeding programs can be compared in terms of their economic impact, resulting genetic gain and inbreeding. MoBPS uses a modular and flexible design that allows for the simulation of different breeding programs, but is still very efficient in terms of computing time and memory usage. In the first part of the discussion (Chapter 5) the influence of imputation on the structure of different haplotyping methods is discussed and subsequently the use of HaploBlocker for genomic prediction is analyzed. In the second part of the discussion, different breeding programs that can be simulated via MoBPS are showcased and potential analyses that can be performed based on these simulations are briefly discussed. Particular attention will be paid to the use of genome editing to accelerate the genetic progress for quantitative traits. In the third and last section of this chapter, an outlook on possible further application areas for HaploBlocker and MoBPS is given. In the supplementary of this thesis, the user manuals for the two R-packages developed in this work are given (Supplementary A and B).de
dc.contributor.coRefereeBeissinger, Timothy M. Prof. Dr.
dc.contributor.thirdRefereePiepho, Hans-Peter Prof. Dr.
dc.subject.enghaplotype blocksde
dc.subject.engbreedingde
dc.subject.engsimulationde
dc.subject.engR-packagede
dc.subject.engbig datade
dc.subject.engimputationde
dc.subject.engquantitative geneticsde
dc.subject.engbreeding programde
dc.identifier.urnurn:nbn:de:gbv:7-21.11130/00-1735-0000-0005-129C-7-6
dc.affiliation.instituteFakultät für Agrarwissenschaftende
dc.subject.gokfullLand- und Forstwirtschaft (PPN621302791)de
dc.identifier.ppn1681544059


Dateien

Thumbnail

Das Dokument erscheint in:

Zur Kurzanzeige