Show simple item record

Accounting for Epistasis in Genomic Phenotype Prediction

dc.contributor.advisorSimianer, Henner Prof. Dr.
dc.contributor.authorVojgani, Elaheh
dc.date.accessioned2021-06-03T10:28:37Z
dc.date.available2021-06-09T00:50:09Z
dc.date.issued2021-06-03
dc.identifier.urihttp://hdl.handle.net/21.11130/00-1735-0000-0008-5845-8
dc.identifier.urihttp://dx.doi.org/10.53846/goediss-8641
dc.language.isoengde
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject.ddc630de
dc.titleAccounting for Epistasis in Genomic Phenotype Predictionde
dc.typedoctoralThesisde
dc.contributor.refereeSimianer, Henner Prof. Dr.
dc.date.examination2021-01-22
dc.description.abstractgerTitel der Arbeit: Berücksichtigung von Epistasie in der genomischen Phänotypvorhersage. Die breite Verfügbarkeit genomischer Daten hat einen erheblichen Einfluss auf Pflanzen- und Tierzuchtprogramme, da hierdurch Untersuchung von Genotypen und deren Beziehungen zu Phänotypen ermöglicht wurden. Die Verbesserung der Genauigkeit genomischer Zuchtwerte ist in der Pflanzen- und Tierzucht zu Selektionszwecken von großem Interesse. In der quantitativen Genetik berücksichtigen die Standardmodelle additive genetische Effekte, während epistatische Effekte aufgrund des damit verbundenen rechentechnischen Aufwands meist ignoriert werden. In dieser Arbeit wird die Bedeutung der Einbeziehung von Epistasie-Interaktionen in die genomische Vorhersage von Phänotypen untersucht. Kapitel 1 enthält eine allgemeine Einführung in die Nutzung genomischer Daten speziell in Tier- und Pflanzenstudien sowohl für die Zuchtwertschätzung als auch für die genomische Vorhersage von Phänotypen. Anschließend werden verschiedene rein additive und epistatische Modelle zur Zuchtwertschätzung dargestellt und die Herausforderungen bei der Berücksichtigung von epistatischen Effekten werden detailliert beschrieben. Schließlich werden univariate und multivariate Modelle für die genomische Vorhersage von Phänotypen aufgrund ihrer jeweiligen Genauigkeiten miteinander verglichen. Die Hauptkapitel dieser Arbeit sind die drei separaten wissenschaftlichen Artikel, die in den Kapiteln 2, 3 und 4 vorgestellt werden. In Kapitel 2 wird die Phänotypvorhersage unter Epistasie anhand neu entwickelter epistatischer Modelle diskutiert, die als "Epistatic Random Regression BLUP“ (ERRBLUP) und "selective Epistatic Random Regression BLUP“ (sERRBLUP) bezeichnet werden. Alle Methoden wurden im assoziierten R-Paket "EpiGP" implementiert, das in der Lage ist, große Mengen genomischer Daten auf rechnerisch effiziente Weise zu verarbeiten. ERRBLUP ist ein vollständig epistatisches Modell, das alle paarweisen SNP-Interaktionen enthält, während sERRBLUP ein selektives epistatisches Modell ist, das eine Untermenge von paarweisen SNP-Interaktionen enthält, die nach ihren absoluten Effektgrößen oder den Effektvarianzen ausgewählt werden. Diese Modelle werden mit dem additiven GBLUP-Modell in einem univariaten statistischen Rahmen miteinander verglichen. Hierfür wurde der öffentlich verfügbare Weizendatensatz aus dem R-Paket BGLR mit simulierten Phänotypen genutzt. Die Ergebnisse deuten darauf hin, dass sERRBLUP im Vergleich zu ERRBLUP und GBLUP zu einer erheblichen Steigerung der Vorhersagefähigkeit führt, wenn der optimale Anteil an SNP-Interaktionen im Modell berücksichtigt wird. Ähnlich wie GBLUP können auch ERRBLUP und sERRBLUP in einem multivariaten Setting genutzt werden. Hierzu werden die entsprechenden Modelle in einem bivariaten Setting in Kapitel 3 in dem Artikel "Accounting for epistasis improves genomic prediction of phenotypes with univariate and bivariate models across environments" entwickelt, in dem zwei verschiedene Umwelten als zwei getrennte Merkmale im multivariaten Ansatz modelliert werden. In Kapitel 3 werden GBLUP, ERRBLUP und sERRBLUP sowohl im univariaten als auch im bivariaten statistischen Rahmen in Mais-Datensätzen verglichen, die von 910 doppelhaploiden Linien der beiden europäischen Landrassen Kemater Landmais Gelb und Petkuser Ferdinand Rot erzeugt wurden, welche im Jahr 2017 an sechs Standorten in Deutschland und Spanien angebaut wurden und an denen acht phänotypische Merkmale erfasst wurden. Bei der Anwendung des sERRBLUP-Modells auf den Maisdatensatz erwies sich die Auswahl von SNP-Interaktionen auf Grundlage von Effektvarianzen aufgrund ihrer Robustheit gegenüber der Auswahl auf der Grundlage von Effektgrößen als überlegen. Unsere Ergebnisse zeigen die Überlegenheit von sERRBLUP gegenüber GBLUP und ERRBLUP sowohl in univariaten als auch in bivariaten statistischen Modellen. Der Vergleich zwischen univariaten und bivariaten Modellen zeigt auch die überlegenen prädiktiven Fähigkeiten bivariater Modelle gegenüber univariaten Modellen. In Kapitel 4 analysieren wir den Nutzen von Haplotypenblöcken anstellen von LD-pruning im Artikel “Bivariate genomic prediction of phenotypes by selecting epistatic interactions across years based on haplotype blocks and pruned sets of SNPs”. Hierzu betrachten wir ein Modell in dem Beobachtungen des gleichen Merkmals in unterschiedlichen Jahren (2017 & 2018) als zwei separate Merkmale in einem multivariaten Modell betrachtet werden. Dies geschieht auf Grundlage von 873 doppelhaploiden Linien des jeweiligen Maisdatensatzes an vier Standorten in Deutschland und Spanien in den Jahren 2017 und 2018. Die Ergebnisse stimmen mit unseren Erkenntnissen aus dem bivariaten Modell in der Anwendung auf zwei Umwelten im gleichen Jahr überein, die in den meisten Fällen eine Überlegenheit des bivariaten sERRBLUP gegenüber GBLUP ergaben. Insgesamt sind die Vorhersagegenauigkeiten, die durch LD-pruning und Haplotypenblöcke erzielt werden, ähnlich. Allerdings kann durch die Nutzung von Haplotypenblöcken die Rechenzeit deutlich stärker reduziert werden. Darüber hinaus untersuchen wir die genomische Korrelation, die phänotypische Korrelation und die Heritabilität des Merkmals als drei Einflussfaktoren auf die Genauigkeit der Vorhersage im bivariaten Modell. Die Ergebnisse betonen die Bedeutung der genomischen Korrelation zwischen den Jahren für die Vorhersagegenauigkeit des bivariaten Modells. Daneben beeinflussen auch die phänotypische Korrelation und die Heritabilität der Merkmale die Zunahme der Vorhersagegenauigkeit bis zu einem gewissen Grad. In dieser Arbeit ist das wichtigste untersuchte Merkmal im Maisdatensatz die Pflanzenhöhe im Wachstumsstadium V4 (PH_V4), die Ergebnisse für anderer phänotypischer Merkmale werden im Anhang von Kapitel 3 und Kapitel 4 vorgestellt. Abschließend wird in der allgemeine Diskussion (Kapitel 5) unsere vorgeschlagene Auswahlmethode im sERRBLUP-Modell mit anderen Methoden der Variablenauswahl verglichen, was die Überlegenheit unserer vorgeschlagenen Auswahlmethode in sERRBLUP nochmals verdeutlicht. Darüber hinaus werden die Einflussfaktoren auf die Vorhersagegenauigkeit der genomischen Vorhersagemodelle untersucht. In dieser Hinsicht hat sich gezeigt, dass eine auf Kopplungsungleichgewicht basierende SNP Auswahl (LD-pruning) zur Verringerung der Anzahl der SNPs eingesetzt werden kann, um die Anwendung von Epistasiemodellen rechentechnisch zu ermöglichen. Die damit erhaltenen Vorhersagegenauigkeiten sind vergleichbar oder sogar besser als die, die durch die Verwendung eines vollständigen Panels von SNPs erreicht werden. Darüber hinaus wird gezeigt, dass das Kreuzvalidierungsszenario in bivariaten statistischen Ansätzen ein wichtiger Faktor für die Abschätzung der Vorhersagefähigkeiten in bivariaten Modellen ist. Weiterhin wird gezeigt, dass der Grad der Überlappungen der in den beiden Umwelten beobachteten Linien signifikant mit der Zunahme der Vorhersagefähigkeit des bivariaten Modells unter dem Kreuzvalidierungsszenario korreliert ist. Unter der Annahme eines hohen Grades an Überlappung ist die genomische Korrelation signifikant mit der Güte der Vorhersage des bivariaten Modells für Merkmale mit hoher Heritabilität korreliert. Auch die phänotypische Korrelation erweist sich in diesem Zusammenhang als relevanter Faktor. Schließlich hinaus werden die Einbeziehung von Transkriptomdaten und Wetterdaten in die Vorhersagemodelle diskutiert und die Erforschung von epistatischen Modellen für GWAS Analysen als potentielles Forschungsgebiet vorgeschlagen.de
dc.description.abstractengWide availability of genomic data has had a considerable impact on plant and animal breeding programs which enables the study of genotypes and their relationships with phenotypes. Improving genomic prediction accuracy is of great interest in plant and animal breeding for selection purposes. In quantitative genetics, the standard models account for additive genetic effects while epistasis effects have been widely ignored due to their computational load. In this thesis, the significance of incorporating epistasis interactions in the genomic prediction of phenotypes are investigated. Chapter 1 presents a general introduction to the significant effects of genomic data specifically in animal and plant studies in both breeding value prediction and genomic prediction of phenotypes. Then different additive and epistasis models are reviewed and the challenges they encounter when considering epistasis are detailed. Finally, the univariate and multivariate statistical settings for genomic prediction of phenotypes are compared in their predictive abilities. The main chapters of this thesis are the three corresponding articles presented in Chapters 2, 3, and 4. In Chapter 2, “Phenotype Prediction under Epistasis” is discussed through developed epistatic models defined as Epistatic Random Regression BLUP (ERRBLUP) and selective Epistatic Random Regression BLUP (sERRBLUP) implemented in the developed R-package named “EpiGP”, which is able to process large scale genomic data in a computationally efficient manner. ERRBLUP is considered as a full epistatic model which incorporates all pairwise SNP interactions, while sERRBLUP is a selective epistatic model which incorporates a subset of pairwise SNP interactions selected according to their absolute effect sizes or the effect variances. These models are compared to GBLUP as an additive model in univariate statistical framework with the genotypes from the publicly available wheat dataset and respective simulated phenotypes. The results indicate that sERRBLUP leads to a considerable increase in predictive ability compared to ERRBLUP and GBLUP when the optimum proportion of SNP interactions is maintained in the model. GBLUP, ERRBLUP and sERRBLUP are developed in bivariate statistical setting in Chapter 3 in the article “Accounting for epistasis improves genomic prediction of phenotypes with univariate and bivariate models across environments” where two environments are modeled as two separate traits in multi-trait model. In Chapter 3, GBLUP, ERRBLUP and sERRBLUP are compared in both univariate and bivariate statistical frameworks in maize dataset derived from 910 doubled haploid lines of two European landraces Kemater Landmais Gelb and Petkuser Ferdinand Rot grown in six locations in Germany and Spain in the year 2017 for eight phenotypic traits. In the maize dataset, pairwise SNP interaction selection based on effect variances is considered as the selection criteria due to its robustness compared to selection based on effects sizes in sERRBLUP model. Our results indicate the superiority of the sERRBLUP over GBLUP and ERRBLUP in both univariate and bivariate statistical settings when selecting the subset of interactions with the highest effect variances. The comparison between univariate and bivariate models also reveals the superior predictive abilities of bivariate models over univariate models. In chapter 4, we analyze the utility of haplotype blocks in contrast to LD-pruning in the article "Bivariate genomic prediction of phenotypes by selecting epistatic interactions across years based on haplotype blocks and pruned sets of SNPs". For this, we consider a model in which observations of the same trait in different years (2017 & 2018) are considered as two separate traits in a multivariate model. This is done in the 873 doubled haploid lines in the respective maize dataset in four locations in Germany and Spain in both years 2017 and 2018. The results are in line with our finding from the bivariate model when considering two environments as the two separate traits indicating the superiority of bivariate sERRBLUP over GBLUP in most cases. Overall, the prediction accuracies obtained by LD-pruning and haplotype blocks are similar. However, the use of haplotype blocks can significantly reduce the computation time. Moreover, we explore genomic correlation, phenotypic correlation and trait’s heritability as three influential factors on bivariate model’s predication accuracy. The results illustrate the significance of genomic correlation between growing seasons in the bivariate model’s prediction accuracy. Phenotypic correlation and heritability of the traits also affect this increase in predictive ability to some extent. In this thesis, the main studied trait in the maize dataset is plant height at V4 growth stage (PH_V4) and the results for series of other phenotypic traits are presented in supplementary material in Chapter 3 and Chapter 4. Finally, the general discussion is presented in Chapter 5 in which our proposed selection method in sERRBLUP model is compared with other methods of variable selection indicating the superiority of our proposed selection method in sERRBLUP. Furthermore, the influential factors on the predictive ability of the genomic prediction models are investigated. In this regard, linkage disequilibrium based SNP pruning as a potential approach to reduce the number of SNPs in order to make the application of epistasis models feasible is shown to result in predictive abilities as good as or better than those obtained from utilizing full panel of SNPs. Moreover, the cross validation scenario in bivariate statistical settings is shown to be an important factor affecting the bivariate models’ predictive abilities. In addition, the level of genotype overlap is found to be significantly correlated with the increase in the bivariate model’s predictive ability under the cross validation scenario which leads to higher predictive ability. Under the assumption of high level of genotype overlap, the genomic correlation is significantly correlated to the bivariate models’ predictive abilities for highly heritable traits. Phenotypic correlation is also shown to be an influential factor in this context. Finally, incorporating transcriptomic data into epistasis genomic prediction models, incorporating weather data into epistasis multi-trait genomic prediction models and exploring single-trait and multi-trait epistasis GWAS are proposed as the potential field of research and further investigations for future studies in the context of epistasis models.de
dc.contributor.coRefereeBeissinger, Timothy M. Prof. Dr.
dc.contributor.thirdRefereeKneib, Thomas Prof. Dr.
dc.subject.engGenomic prediction, Prediction across environments, Prediction across years, Epistasis, GBLUP, ERRBLUP, sERRBLUP, EpiGP, Multi-trait models, Interaction, Genomic correlation, Haplotype blocks, Linkage disequilibrium (LD) based SNP pruningde
dc.identifier.urnurn:nbn:de:gbv:7-21.11130/00-1735-0000-0008-5845-8-0
dc.affiliation.instituteFakultät für Agrarwissenschaftende
dc.subject.gokfullLand- und Forstwirtschaft (PPN621302791)de
dc.description.embargoed2021-06-09
dc.identifier.ppn1759781053


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record