Genomic Prediction for Quantitative Traits: Using Kernel Methods and Whole Genome Sequence Based Approaches
Genomische Vorhersage für quantitative Merkmale: Verwendung von Kernel-Methoden und Verfahren, die auf vollständigen Genomsequenzen basieren
by Ulrike Ober
Date of Examination:2012-09-28
Date of issue:2012-09-28
Advisor:Prof. Dr. Martin Schlather
Referee:Prof. Dr. Martin Schlather
Referee:Prof. Dr. Henner Simianer
Files in this item
Name:ober.pdf
Size:4.83Mb
Format:PDF
Abstract
English
Predicting genetic values is important in animal and plant breeding, personalized medicine and evolutionary biology. Traditionally, prediction is based on a best linear unbiased prediction (BLUP) approach within a linear mixed model framework, with covariance structures obtained from relationship measures between individuals. Nowadays, single nucleotide polymorphism (SNP) data allow to incorporate genomic information into the model (genomic BLUP (GBLUP)). Prediction is also the principal topic in geostatistics in the framework of correlated data. Here, the so-called “kriging” approach performs BLUP using parameterized covariance functions. In this thesis, the kriging concept to perform genomic prediction using the family of Matérn covariance functions is adopted and kriging is compared to GBLUP in a whole-genome simulation study. The results of the simulation study suggest that kriging is superior over GBLUP in non-additive gene-action scenarios. The methodological development of genome-based prediction methods has become even more important with the increasing availability of whole genome sequence data. This thesis provides the world-wide first application of phenotype prediction based on sequence data in a higher eukaryote using the “Drosophila melanogaster Genetic Reference Panel”, which comprises sequences and phenotypic data of 157 inbred lines of the model organism Drosophila melanogaster. For the traits “starvation resistance” and “startle response” moderate predictive abilities are obtained performing GBLUP, utilizing 2.5 million SNPs to infer genomic relationships between individuals. The predictive ability of a Bayesian method with internal SNP selection is not higher than the one obtained with GBLUP, and predictive ability of GBLUP decreases only when fewer than 150,000 SNPs are used. For a third trait (“chill coma recovery”) the GBLUP approach fails completely. Based on differentiated analyses and a corresponding two-marker genome-wide association study, two possible reasons for this failure are identified: the bimodal phenotypic distribution and an extensive network of epistatic interactions between SNPs. The accuracy of genomic prediction is also affected by the underlying structure of linkage disequilibrium (LD) between SNPs. Several formulae for the expected levels of LD in finite populations have been proposed in the literature, most of them being approximate. In this thesis, an alternative recursion formula for the development of LD over time is proposed. A simulation study illustrates that for all parameter constellations under consideration the proposed formula performs better than the widely used formula of Sved. The theory of discrete-time Markov chains further allows the derivation of the expected amount of LD at equilibrium, leading to a formula for the effective population size Ne. By analyzing the effect of non-exactness of the recursion formula on the steady-state, it is demonstrated that the resulting error in expected LD can be substantial. Using the human HapMap data, it is further illustrated that the Ne-estimate strongly depends on the distribution of minor allele frequencies taken as a basis to select SNPs for the analyses. Comprising a wide spectrum of investigations at the interface between statistics, animal breeding and genetics, the findings of this thesis are of interest from a practical as well as from a methodical statistical point of view.
Keywords: BLUP; Kriging; Matérn covariance function; SNP; genomic prediction; genetic value; sequence data; Drosophila melanogaster; complex traits; effective population size; linkage disequilibrium
Other Languages
Die Vorhersage genetischer Werte ist von großer Bedeutung in der Tier- und Pflanzenzucht, der personalisierten Medizin und der Evolutionsbiologie. Traditionell werden genetischeWerte durch eine beste lineare unverzerrte Vorhersage (BLUP) im Rahmen eines linearen gemischten Modells ermittelt, dessen Kovarianzstrukturen aus Verwandtschaftsmaßen zwischen Individuen berechnet werden können. Heutzutage ermöglichen Single Nucleotide Polymorphism (SNP) Marker die Einbeziehung genomischer Informationen in das Model (genomisches BLUP (GBLUP)).
Die Vorhersage von Zufallsvariablen auf Basis korrelierter Daten ist auch eines der wichtigsten Gebiete in der Geostatistik. Dabei wird der sogenannte „Kriging“-Ansatz verwendet, bestehend aus einem BLUP-Ansatz mit parametrisierten Kovarianzfunktionen. In der vorliegenden Arbeit wird das Kriging Konzept auf die genomische Vorhersage übertragen. Unter Verwendung der Familie der Matérn Kovarianzfunktionen wird Kriging mit dem GBLUP-Ansatz in einer genomweiten Simulationsstudie verglichen. Die Ergebnisse der Simulationsstudie lassen darauf schließen, dass Kriging dem GBLUP-Ansatz in nichtadditiven Genwirkungs-Szenarien überlegen ist.
Mit der zunehmenden Verfügbarkeit genomweiter Sequenzdaten hat die methodologische Entwicklung genom-basierter Vorhersagemethoden erneut an Bedeutung gewonnen. Diese Arbeit enthält die weltweit erste Studie zur phänotypischen Vorhersage unter Verwendung von Sequenzdaten in einem höheren eukaryotischen Organismus. Der „Drosophila melanogaster Genetic Reference Panel“ dient dabei als Datengrundlage und umfasst Sequenzen sowie phänotypische Daten von 157 Inzuchtlinien des Modellorganismus Drosophila melanogaster. Für die beiden Merkmale „starvation resistance“ und „startle response“ können unter Verwendung von 2.5 Millionen SNPs moderate Vorhersagegenauigkeiten mit GBLUP beobachtet werden. Die Vorhersagegenauigkeit einer Bayesschen Methode mit interner SNP-Selektion ist nicht größer als die durch GBLUP erzielte Genauigkeit, und die Vorhersagegenauigkeit des GBLUPAnsatzes nimmt erst ab, wenn weniger als 150.000 SNPs verwendet werden.
Für ein drittes Merkmal („chill coma recovery“) erzielt der GBLUP-Ansatz nur sehr geringe Genauigkeiten. Mit Hilfe differenzierter Analysen und einer genomweiten Assoziationsstudie, welche paarweise Interaktionen zwischen Markern miteinbezieht, werden zwei mögliche Ursachen für das Scheitern des GBLUP-Ansatzes identifiziert: die bimodale phänotypische Verteilung sowie ein extensives Netzwerk epistatischer Interaktionen zwischen SNPs.
Es ist bekannt, dass die Genauigkeit der genomischen Vorhersage auch durch die zugrunde liegende Struktur des Kopplungsungleichgewichtes (linkage disequilibrium (LD)) zwischen SNPs beeinflusst wird. Mehrere, meist approximative Formeln für die erwartete Höhe an LD in Populationen endlicher Größe existieren bereits in der Literatur. In dieser Arbeit wird eine alternative Rekursionsformel vorgeschlagen, welche die zeitliche Entwicklung des LDs beschreibt, und in einer Simulationsstudie wird gezeigt, dass die vorgeschlagene Formel der vielfach verwendeten Formel von Sved in allen betrachteten Parameterkonstellationen überlegen ist. Die Theorie zu zeit-diskreten Markovketten erlaubt weiterhin die Herleitung des erwarteten LDs im Gleichgewichtszustand, was wiederum zu einer Formel für die effektive Populationsgröße Ne führt. Durch die Analyse des Effektes der Nicht-Exaktheit der Rekursionsformel auf den Gleichgewichtszustand kann gezeigt werden, dass der resultierende Fehler an erwartetem LD beachtlich sein kann. Unter Verwendung des humanen HapMap Datensatzes wird außerdem deutlich gemacht, dass der Ne-Schätzer stark von der Verteilung der Allelhäufigkeit des selteneren Allels abhängt, die den zur Analyse ausgewählten SNPs zugrunde liegt.
Die vorliegende Arbeit umfasst ein weites Spektrum an Untersuchungen an Schnittstellen der Statistik, Tierzucht und Genetik. Die vorgestellten Ergebnisse sind sowohl aus praktischer als auch aus methodisch-statistischer Sicht von Interesse.
Schlagwörter: BLUP; Kriging; Matérn Kovarianzfunktion; SNP; genomische Vorhersage; genetischer Wert; Sequenzdaten; Drosophila melanogaster; komplexe Merkmale; effektive Populationsgröße; Linkage Disequilibrium