Zur Kurzanzeige

Identification of regulatory SNPs and epistatic SNP pairs using deep learning and information theory

dc.contributor.advisorSchmitt, Armin Prof. Dr.
dc.contributor.authorHeinrich, Felix
dc.date.accessioned2022-08-24T13:14:32Z
dc.date.available2022-08-31T00:50:28Z
dc.date.issued2022-08-24
dc.identifier.urihttp://resolver.sub.uni-goettingen.de/purl?ediss-11858/14221
dc.identifier.urihttp://dx.doi.org/10.53846/goediss-9415
dc.language.isoengde
dc.subject.ddc630de
dc.titleIdentification of regulatory SNPs and epistatic SNP pairs using deep learning and information theoryde
dc.typedoctoralThesisde
dc.contributor.refereeSchmitt, Armin Prof. Dr.
dc.date.examination2022-07-12de
dc.description.abstractgerIn den letzten zwei Jahrzehnten haben neue Technologien die DNA-Genotypisierung und -Sequenzierung wesentlich zeit- und kosteneffizienter gemacht. Die dadurch erzielte enorme Zunahme der verfügbaren Genomdaten ermöglicht ein tieferes Verständnis der Beziehung zwischen dem Genotyp und dem Phänotyp. In dieser Arbeit stelle ich zwei neuartige Verfahren vor, die spezifische Aspekte der Beziehung zwischen Genotyp und Phänotyp analysieren, nämlich die Identifizierung von regulatorischen SNPs (rSNPs) und die Erkennung epistatischer SNP-Paare. Bei meiner ersten Methode setze ich maschinelles Lernen ein, um ein neuronales Faltungsnetzwerk für die Vorhersage von Promotersequenzen in der Art Vicia faba zu trainieren. Durch die Ausnutzung der Konservierung von Promotersignaturen bei eng verwandten Arten, konnte ich die teure und zeitaufwändige Aufgabe der Assemblierung und Annotation eines Referenzgenomes für die untersuchte Art vermeiden. Anhand der entdeckten Promoterregionen konnte ich dann mutmaßliche rSNPs in Bezug auf ihre Auswirkungen auf die Bindung von Transkriptionsfaktoren analysieren. Schlussendlich ergaben meine Ergebnisse zwei rSNPs, die in hohem Maße mit dem untersuchten Merkmal assoziiert waren, nämlich dem Vicin- und Convicin-Gehalt (V+C) der Pflanzen. Diese Marker könnten dann in Pflanzenzuchtprogrammen verwendet werden, die auf einen niedrigen V+C-Gehalt abzielen. Ich habe damit ebenfalls gezeigt, dass für diese Art der Analyse nicht immer ein annotiertes Referenzgenom erforderlich ist. Für meinen zweiten Ansatz habe ich eine Methode namens MIDESP zur Erkennung epistatischer Interaktionen zwischen SNP-Paaren auf Grundlage der wechselseitigen Information entwickelt. Diese Methode erweitert die bestehenden auf der Informationstheorie basierenden Ansätze zur Epistasisdetektion in zwei Schlüsselbereichen. Erstens ist sie durch die Anwendung eines k-nächsten Nachbarn-basierten Ansatzes zur Schätzung der wechselseitigen Information die erste auf wechselseitiger Information basierende Methode, die zur Erkennung von Epistasis sowohl für qualitative als auch für quantitative Phänotypen angewendet werden kann. Zweitens beinhaltet die Methode die sogenannte “average product correction” (APC), um mit möglichen Komplikationen in einem Genotyp-Phänotyp-Datensatz umzugehen, die andernfalls zur Erkennung von falsch-positiven Interaktionen führen könnten. Ich demonstriere die Leistung von MIDESP und seiner verschiedenen Aspekte anhand von simulierten und realen Datensätzen, die sich auf Rindertuberkulose bzw. das Gewicht von Hühnereiern beziehen. Der Vergleich der Ergebnisse mit und ohne Anwendung der APC zeigte, dass die Korrektur notwendig ist, um die Anzahl von falsch-positiven Interaktionen zu reduzieren. Insgesamt liefern meine beiden Methoden neue Einblicke in spezifische Mechanismen, die der Beziehung zwischen Genotyp und Phänotyp zugrunde liegen, und identifizieren wichtige SNPs, die an diesen Mechanismen beteiligt sind.de
dc.description.abstractengIn the last two decades, new technologies have made DNA genotyping and sequencing far more time and cost efficient. The resulting tremendous increase in the amount of available genomic data allows for a deeper understanding of the relationship between the genotype and the phenotype. In this thesis, I present two novel frameworks which analyze specific aspects of the relationship between the genotype and the phenotype, namely the identification of regulatory SNPs (rSNPs) as well as the detection of epistatic SNP pairs. In my first framework, I utilized deep learning to train a convolutional neural network for the prediction of promoter sequences in the species Vicia faba. By exploiting the conservation of promoter signatures across closely related species, I avoided the need for the expensive and time-consuming task of assembling and annotating a reference genome for the species under study. With the detected promoter regions, I was then able to analyze putative rSNPs in terms of their effects on the binding of transcription factors. Finally, my results revealed two rSNPs which were highly associated with the trait under study, namely the vicine and convicine content (V+C) of the plants. These markers could then be further used in plant breeding programs that target a low V+C content. Furthermore, I thereby demonstrated that an annotated reference genome is not always necessary for this type of analysis. For my second framework, I developed a method named MIDESP for the detection of epistatic interactions between SNP pairs based on mutual information. This method extends the existing information theory-based approaches for epistasis detection in two key areas. First, by adopting a kth-nearest neighbor-based approach for estimating mutual information, it is the first mutual information-based method which can be applied to detect epistasis for qualitative as well as quantitative phenotypes. Secondly, the method incorporates the average product correction (APC) to deal with possible complications in a genotype-phenotype dataset, which may otherwise give rise to the detection of false-positive interactions. I showcase the performance of MIDESP and its different aspects by means of simulated as well as real datasets, which were related to bovine tuberculosis and the weight of chicken eggs, respectively. Comparing the results with and without the application of the APC showed that the correction is necessary to reduce the prediction of false-positive interactions. Overall, both of my frameworks provide novel insights into specific mechanisms underlying the relationship between the genotype and the phenotype and identify important SNPs that are participating in these mechanisms.de
dc.contributor.coRefereeWaack, Stephan Prof. Dr.
dc.contributor.thirdRefereeYeniay, Murtaza Özgür Prof. Dr.
dc.subject.enginformation theoryde
dc.subject.engmutual informationde
dc.subject.engepistasisde
dc.subject.engdeep learningde
dc.subject.engregulatory SNPsde
dc.subject.engconvolutional neural networksde
dc.subject.engvicia fabade
dc.identifier.urnurn:nbn:de:gbv:7-ediss-14221-4
dc.affiliation.instituteFakultät für Agrarwissenschaftende
dc.subject.gokfullLand- und Forstwirtschaft (PPN621302791)de
dc.description.embargoed2022-08-31de
dc.identifier.ppn1815211024
dc.identifier.orcid0000-0002-6093-8522de
dc.notes.confirmationsentConfirmation sent 2022-08-24T13:15:01de


Dateien

Thumbnail

Das Dokument erscheint in:

Zur Kurzanzeige