Zur Kurzanzeige

Investigation of machine learning approaches to predict quantitative traits using environmental and genomic information

dc.contributor.advisorBeissinger, Timothy M. Prof. Dr.
dc.contributor.authorWesthues, Cathy Colette
dc.date.accessioned2023-02-01T16:07:49Z
dc.date.available2023-02-09T00:50:10Z
dc.date.issued2023-02-01
dc.identifier.urihttp://resolver.sub.uni-goettingen.de/purl?ediss-11858/14492
dc.identifier.urihttp://dx.doi.org/10.53846/goediss-9688
dc.format.extent239 Seitende
dc.language.isoengde
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/
dc.subject.ddc630de
dc.titleInvestigation of machine learning approaches to predict quantitative traits using environmental and genomic informationde
dc.typedoctoralThesisde
dc.contributor.refereeSimianer, Henner Prof. Dr.
dc.date.examination2022-05-18de
dc.description.abstractgerIn der Pflanzenzüchtung repräsentieren Genotyp-Umwelt-Interaktionen (G × E) eine bedeutende Quelle von Variation in komplexen phänotypischen Merkmalen. Ein besseres Verständnis von G × E Interaktionen kann einen Mehrwert für die Selektion von Sorten bieten, die für bestimmte Umweltbedingungen angepasst sind. Zusätzlich lassen sich diese Erkenntnisse nutzen, um die Auswahl der Umwelten, die das Training Set für genomische Selektion bilden, zu optimieren. Ein Nachteil der Modellierung von G × E Interaktionen, die lediglich Informationen zur Klassifizierung von Jahr und Ort nutzt, ist, dass es nahezu unmöglich ist Vorhersagen für bisher ungeteste Umwelten, wie beispielweise zukünftige Wetterverhältnisse, zu treffen. Heutzutage lassen sich große Mengen an Umwelt-, genomischen und phänotypischen Daten gemeinsam auswerten, um die Sensitivität des Phänotyps von Selektionskandidaten gegenüber Wetter- und Bodenverhältnissen zu schätzen. Zahlreiche statistische Methoden, die häufig auf gemischten Modellen basieren, wurden bisher auf ihre Eignung überprüft große Datensätze gemeinsam auszuwerten und G × E Interaktionen aufzuschlüsseln. Diese Ansätze basieren allerdings auf statistischen Annahmen, die es verbieten, nicht-lineare Zusammenhänge zwischen Genen und Umweltbedingungen zu identifizieren. Ansätze aus der Domäne des maschinellen Lernens sind hier von großem Interesse, da sie es ermöglichen Daten mit unterschiedlicher Kodierung auszuwerten, und dabei sowohl lineare als auch nicht-lineare Interaktionen zu berücksichtigen und automatisch mit uninformativen Variablen umzugehen. Die Hauptziele dieser Arbeit bestehen daher darin Ansätze des maschinellen Lernens dahingehend zu überprüfen, ob sie (i) die Vorhersageleistung mittels genomischer, Umwelt- und Managementdaten verbessern können und (ii) es ermöglichen ein verbessertes Verständnis darüber zu erlangen welche Umweltfaktoren die Vorhersagegenauigkeit komplexer, agronomischer Merkmale beeinflussen. Zusätzlich wollten wir untersuchen, wie sich beispielsweise die Optimierung von Hyperparametern sowie die Nutzung von Regulierungsmethoden, welche bei der Anwendung von Algorithmen im Bereich maschinelles Lernen berücksichtigt werden müssen, auf die Vorhersage der Merkmale auswirkt. Das erste Kapitel liefert eine allgemeine Einleitung der G x E Thematik sowie der Erfassung und Verarbeitung von Umweldaten. Zusätzlich präsentieren wir allgemeine Eigenchaften von Modellen der Domäne maschinellen Lernens im Zusammenhang mit genomischen Vorhersagen vor dem Hintergrund von mehrortigen Versuchen (METs). Im zweiten Kapitel untersuchen wir die Fähigkeit von "gradient-boosted tree"-Algorithmen, im Vergleich mit Reaktionsnormmodellen, umweltspezifische Vorhersagen zu treffen. Die untersuchten Daten umfassen phänotypische Messungen diverser Phänotypen von Maishybriden, darunter Pflanzenhöhe und Kornertrag, welche in mehrortigen Versuchen erfasst wurden. Dieser Datensatz beinhaltet Messungen an 32 Orten, die über die gesamten USA und Kanada verteilt sind, und in den Jahren 2014 bis 2017 erhoben wurden. Zusätzlich wurden Bodenparameter, Managementinformationen (beispielsweise Bewässerungsdaten) Wetterdaten und genomische Markerdaten für die Vorhersagemodelle verwendet. Im Besonderen wurden genotypspezifische Umwelt-Kovariablen eingesetzt, um tägliche Wetterdaten zusammenzufassen und damit Unterschiede in der Reife von Genotypen berücksichtigen zu können. Unsere Ergebnisse zeigen einen Mehrwert nicht-linearer "gradient-boosting"-Algorithmen bei der Nutzung von Umweltdaten zur Vorhersage des Merkmals Kornertrag für Genotyp-Umwelt-Kombinationen, die bisher nicht experimentell untersucht wurden. Die explizite Modellierung von G x E Interaktionen erzielte einen Zugewinn an Vorhersagegenauigkeit für die Klasse von Modellen mit zufälligen Effekten. Der Einfluss von Umweltfaktoren auf das Merkmal Kornertrag wurde ebenfalls untersucht. Insbesondere Hitzestress, Niederschlag und Bodenfruchtbarkeit konnten in diesem Zusammenhang als Faktoren mit starkem Einfluss auf den Kornertrag identifiziert werden. Im dritten Kapitel beschreiben wir ein R-Paket (learnMET) welches eine nutzerfreundliche Zusammenstellung von Algorithmen des maschinellen Lernens bietet, um unterschiedliche Konstellationen von Genotypen und mehrortigen Versuchen, hinsichtlich der Vorhersagefähigkeit genotypischer Leistung, zu untersuchen. Zu diesem Zweck können Wetterdaten automatisch von einer öffentlichen, satellitenbasierten Plattform (NASA POWER) bezogen werden oder, alternativ, extern ermittelt und integriert werden, sofern Daten von Wetterstationen vorliegen. Allgemein bekannte ökophysiologische Beziehungen (z.B. Dampfdruckdefizite und Evapotranspiration) sowie abiotische Stresskovariablen werden, basierend auf den vorliegenden Klimadaten, berechnet. Zusätzlich schlagen wir unterschiedliche Methoden zur Aggregierung der täglichen Klimadaten in größere, zeitliche Fenster vor; darunter Ansätze zur Vorhersage des Zeitpunkts wichtiger Entwicklungsstadien auf der Grundlage akkumulierter Wärmeeinheiten. Im Zuge einer Kreuzvalidierung liefert die Software den Nutzern unterschiedliche Metriken zur Bewertung der Eignung unterschiedlicher Modelle für ihre Daten. Zur Validierung unserer Ansätze haben wir diese mit weitverbreiteten, parametrischen Modellen verglichen. Neben unseren eigenen Ansätzen haben wir explizit eine Integration anderer Softwarepakete verfolgt, um die Erfassung des relativen Beitrags unterschiedlicher genetischer oder Umweltfaktoren zu ermöglichen ohne sich mit der Syntax diese Pakete vertraut machen zu müssen. In Kapitel Vier stellen wir eine neue Methode zur Erstellung von Ähnlichkeitsmatrizen auf der Grundlage von Umweltdaten vor. Diese basieren auf einer nicht-linearen Distanzmetrik, welche als Dynamic Time Warping (DTW) bezeichnet wird, und mittels einer Zeitreihenanalyse berechnet wird, welche charakteristisch für die Wachtumsperiode einer Kulturart in einer gegebenen Umwelt ist. Diese Metrik wurde verwendet um bestimmte Entwicklungsstadien zu gruppieren und auf zwei mehrortige Datensätze angewandt (Genomes to Fields Datensatz aus dem zweiten Kapitel und Weizendaten des CIMMYT). In einem ersten Schritt wurden Reaktionsnormmodelle mit einer Ähnlichkeitsmatrix, auf der Basis von Umweltkovariablen, geprüft. In einem zweiten Schritt wurden Rekationsnormmodelle mit einer Ähnlichkeitsmatrix, die mittels DTW-Distanz erstellt wurde, verwendet. Unsere Ergebnisse zeigen, dass DTW-basierte Ähnlichkeitsmatrizen einen größeren Anteil der Umweltvarianz erklären konnten als der alternative Ansatz und zusätzlich vorteilhaft sind um additive und dominante Interaktionseffekte zwischen Genotyp und Umwelt zu modellieren. Daher regen wir an DTW-Distanz, als effektiven und simplen Ansatz zur Quantifizierung der Ähnlichkeit zwischen Zeitreihen, auf andere Datensätze, wie beispielsweise Zeitreihenanalysen von phänotypischen Daten aus Hochdurchsatzverfahren, anzuwenden. Abschließend diskutieren wir in der General Discussion die Möglichkeiten und Grenzen unserer bisherigen Studien. Ein Hauptaugenmerk sollte dabei auf die Qualität von Umweltvariablen, auf das Design des Traingsdatensatzes zur Vermeidung von Extrapolation sowie auf Datenaufbereitungsmethoden zur Verbesserung der Vorhersageleistung gelegt werden.de
dc.description.abstractengIn plant breeding, genotype-by-environment (G × E) interactions represent a substantial source of variation underlying complex phenotypic traits. A better understanding of G × E interactions can be beneficial to design varieties specifically adapted to certain types of environmental conditions, as well as to optimize the set of environments to include in the training set used in genomic selection. A caveat of modeling G × E interactions with only year-location labels is the impracticality of making predictions for new environments that have never been tested, such as potential future weather conditions. Nowadays, a large wealth of information, such as large volumes of high-throughput environmental, genomic and phenotypic data, can be jointly analyzed to estimate the sensitivity of the phenotypic response of selection candidates to a set of weather and soil conditions. Numerous statistical methods, mostly based on mixed models, have been proposed for integrating these large datasets and to disentangle G × E interactions. However, they rely on strong statistical assumptions, that cannot identify nonlinear responses of genes to environmental conditions. Machine learning approaches are of utmost interest to harness these observational datasets, in particular because they can handle mixed data formats, capture nonlinear and linear interactions and cope intrinsically with irrelevant input variables. The main objectives of this dissertation were therefore to examine machine learning methods for (i) enhancement of prediction performance using genomic, environmental, and management data, and for (ii) better understanding of the environmental factors impacting predictive abilities of complex agronomic traits. In addition, specific pitfalls and challenges associated with machine learning methods, such as optimization of hyperparameters and utilization of regularization methods, were studied. In chapter 1, we give a general introduction to the topic of G × E interactions and of the collection and processing of environmental data. We also present some general characteristics of machine learning models for genomic prediction in the context of multi-environment trials (METs). In chapter 2, we examine the predictive ability of gradient boosted tree algorithms, a relatively recent machine learning framework, against reaction norm models, for environment-specific predictions. The data we analyzed consist of multi-environment trials from 32 locations across the United States and Canada from 2014 to 2017, in which maize hybrids were phenotyped for various traits like plant height and grain yield. Soil, management (irrigation information) and weather data were used in prediction models in addition to molecular genome-wide marker data. In particular, genotype-specific environmental covariates were used to summarize daily weather data, to take into account variability in earliness. Results demonstrate an improvement of predictive ability using nonlinear gradient boosting frameworks harnessing environmental data, for the trait grain yield, in a challenging cross-validation scheme aiming at predicting new genotypes in a new year. Modeling explicitly G × E interactions yielded a gain in predictive ability for the class of random effects models. The effect of environmental factors on grain yield was also investigated, and those related to heat stress, precipitation and soil fertility were ranking among the most important variables. In chapter 3, we describe an R package (learnMET) that provides a user-friendly pipeline to evaluate machine learning algorithms for prediction of genotype performance in different multi-environment prediction scenarios. Weather data can be retrieved from a public satellite-based platform (NASA POWER) or derived from field weather stations data. Well-known relationships in ecophysiology (vapour pressure deficit, reference evapotranspiration) and abiotic stress covariates are computed based on the available climate data. Additionally, various methods are proposed to summarize the daily climate data into temporal window sizes, some of which attempting to predict the timing of important developmental stages based on accumulated thermal time. Different evaluation metrics are provided as output when a cross-validation scheme is evaluated, to allow users to decide on the best model to use with their own data. We assessed some of the proposed prediction tools against a parametric benchmark method. Further, the fitted model can be used to gain insights into the relative contribution of different environmental or genetic factors, as we implemented gateways to other expert R packages for machine learning model interpretation. In chapter 4, a new method is introduced to build environmental similarity matrices using a nonlinear distance measure, named Dynamic Time Warping (DTW), calculated between weather time series characterizing the crop growing season in each environment. This metric was used to cluster crop growing events and applied to two MET datasets (the Genomes to Fields dataset from chapter2, and a wheat dataset from CIMMYT). Reaction norm models defined in a similar manner to the models implemented in chapter 2 were tested (i) with a similarity matrix based on environmental covariates, and (ii) with a similarity matrix derived from DTW distance. According to our results, the latter explained a larger part of the environmental variance than the former, and better captured additive-by-environment and dominance-by-environment interaction effects. Therefore, we encourage further exploring DTW distance as an effective and simple approach to quantify similarity between time series, which could be applied to other types of datasets, such as time series measurements with high-throughput phenotyping data. Finally, in the general discussion, we discuss limitations and possibilities related to these studies. In particular, special attention should be given to environmental data quality, to the design of the training set data in order to avoid extrapolation, and to preprocessing techniques for improving predictive performance.de
dc.contributor.coRefereeLipka, Alexander E. Prof. Dr.
dc.contributor.thirdRefereeJarquin, Diego Prof. Dr.
dc.subject.engmachine learningde
dc.subject.enggenotype-by-environment interactionsde
dc.subject.engreaction norm modelsde
dc.subject.engquantitative geneticsde
dc.subject.engR-packagede
dc.subject.enggenomic predictionde
dc.subject.engenviromicsde
dc.identifier.urnurn:nbn:de:gbv:7-ediss-14492-3
dc.affiliation.instituteFakultät für Agrarwissenschaftende
dc.subject.gokfullLand- und Forstwirtschaft (PPN621302791)de
dc.description.embargoed2023-02-09de
dc.identifier.ppn1833023153
dc.creator.birthnameJubinde
dc.notes.confirmationsentConfirmation sent 2023-02-02T06:15:01de


Dateien

Thumbnail

Das Dokument erscheint in:

Zur Kurzanzeige