dc.contributor.advisor | Schmitt, Armin Prof. Dr. | |
dc.contributor.author | Heinrich, Felix | |
dc.date.accessioned | 2022-08-24T13:14:32Z | |
dc.date.available | 2022-08-31T00:50:28Z | |
dc.date.issued | 2022-08-24 | |
dc.identifier.uri | http://resolver.sub.uni-goettingen.de/purl?ediss-11858/14221 | |
dc.identifier.uri | http://dx.doi.org/10.53846/goediss-9415 | |
dc.language.iso | eng | de |
dc.subject.ddc | 630 | de |
dc.title | Identification of regulatory SNPs and epistatic SNP pairs using deep learning and information theory | de |
dc.type | doctoralThesis | de |
dc.contributor.referee | Schmitt, Armin Prof. Dr. | |
dc.date.examination | 2022-07-12 | de |
dc.description.abstractger | In den letzten zwei Jahrzehnten haben neue Technologien die DNA-Genotypisierung und
-Sequenzierung wesentlich zeit- und kosteneffizienter gemacht. Die dadurch erzielte enorme
Zunahme der verfügbaren Genomdaten ermöglicht ein tieferes Verständnis der Beziehung
zwischen dem Genotyp und dem Phänotyp. In dieser Arbeit stelle ich zwei neuartige Verfahren
vor, die spezifische Aspekte der Beziehung zwischen Genotyp und Phänotyp analysieren,
nämlich die Identifizierung von regulatorischen SNPs (rSNPs) und die Erkennung
epistatischer SNP-Paare.
Bei meiner ersten Methode setze ich maschinelles Lernen ein, um ein neuronales
Faltungsnetzwerk für die Vorhersage von Promotersequenzen in der Art Vicia faba zu trainieren.
Durch die Ausnutzung der Konservierung von Promotersignaturen bei eng verwandten Arten,
konnte ich die teure und zeitaufwändige Aufgabe der Assemblierung und Annotation
eines Referenzgenomes für die untersuchte Art vermeiden. Anhand der entdeckten Promoterregionen
konnte ich dann mutmaßliche rSNPs in Bezug auf ihre Auswirkungen auf die
Bindung von Transkriptionsfaktoren analysieren. Schlussendlich ergaben meine Ergebnisse
zwei rSNPs, die in hohem Maße mit dem untersuchten Merkmal assoziiert waren, nämlich
dem Vicin- und Convicin-Gehalt (V+C) der Pflanzen. Diese Marker könnten dann in
Pflanzenzuchtprogrammen verwendet werden, die auf einen niedrigen V+C-Gehalt abzielen. Ich
habe damit ebenfalls gezeigt, dass für diese Art der Analyse nicht immer ein annotiertes
Referenzgenom erforderlich ist.
Für meinen zweiten Ansatz habe ich eine Methode namens MIDESP zur Erkennung epistatischer
Interaktionen zwischen SNP-Paaren auf Grundlage der wechselseitigen Information
entwickelt. Diese Methode erweitert die bestehenden auf der Informationstheorie basierenden
Ansätze zur Epistasisdetektion in zwei Schlüsselbereichen. Erstens ist sie durch die
Anwendung eines k-nächsten Nachbarn-basierten Ansatzes zur Schätzung der wechselseitigen
Information die erste auf wechselseitiger Information basierende Methode, die zur Erkennung
von Epistasis sowohl für qualitative als auch für quantitative Phänotypen angewendet
werden kann. Zweitens beinhaltet die Methode die sogenannte “average product correction”
(APC), um mit möglichen Komplikationen in einem Genotyp-Phänotyp-Datensatz umzugehen,
die andernfalls zur Erkennung von falsch-positiven Interaktionen führen könnten. Ich
demonstriere die Leistung von MIDESP und seiner verschiedenen Aspekte anhand von simulierten
und realen Datensätzen, die sich auf Rindertuberkulose bzw. das Gewicht von
Hühnereiern beziehen. Der Vergleich der Ergebnisse mit und ohne Anwendung der APC
zeigte, dass die Korrektur notwendig ist, um die Anzahl von falsch-positiven Interaktionen
zu reduzieren.
Insgesamt liefern meine beiden Methoden neue Einblicke in spezifische Mechanismen, die
der Beziehung zwischen Genotyp und Phänotyp zugrunde liegen, und identifizieren wichtige
SNPs, die an diesen Mechanismen beteiligt sind. | de |
dc.description.abstracteng | In the last two decades, new technologies have made DNA genotyping and sequencing far
more time and cost efficient. The resulting tremendous increase in the amount of available
genomic data allows for a deeper understanding of the relationship between the genotype
and the phenotype. In this thesis, I present two novel frameworks which analyze specific aspects
of the relationship between the genotype and the phenotype, namely the identification
of regulatory SNPs (rSNPs) as well as the detection of epistatic SNP pairs.
In my first framework, I utilized deep learning to train a convolutional neural network for the
prediction of promoter sequences in the species Vicia faba. By exploiting the conservation
of promoter signatures across closely related species, I avoided the need for the expensive
and time-consuming task of assembling and annotating a reference genome for the species
under study. With the detected promoter regions, I was then able to analyze putative rSNPs
in terms of their effects on the binding of transcription factors. Finally, my results revealed
two rSNPs which were highly associated with the trait under study, namely the vicine and
convicine content (V+C) of the plants. These markers could then be further used in plant
breeding programs that target a low V+C content. Furthermore, I thereby demonstrated that
an annotated reference genome is not always necessary for this type of analysis.
For my second framework, I developed a method named MIDESP for the detection of
epistatic interactions between SNP pairs based on mutual information. This method extends
the existing information theory-based approaches for epistasis detection in two key areas.
First, by adopting a kth-nearest neighbor-based approach for estimating mutual information,
it is the first mutual information-based method which can be applied to detect epistasis for
qualitative as well as quantitative phenotypes. Secondly, the method incorporates the average
product correction (APC) to deal with possible complications in a genotype-phenotype
dataset, which may otherwise give rise to the detection of false-positive interactions.
I showcase the performance of MIDESP and its different aspects by means of simulated as well
as real datasets, which were related to bovine tuberculosis and the weight of chicken eggs,
respectively. Comparing the results with and without the application of the APC showed
that the correction is necessary to reduce the prediction of false-positive interactions.
Overall, both of my frameworks provide novel insights into specific mechanisms underlying
the relationship between the genotype and the phenotype and identify important SNPs that
are participating in these mechanisms. | de |
dc.contributor.coReferee | Waack, Stephan Prof. Dr. | |
dc.contributor.thirdReferee | Yeniay, Murtaza Özgür Prof. Dr. | |
dc.subject.eng | information theory | de |
dc.subject.eng | mutual information | de |
dc.subject.eng | epistasis | de |
dc.subject.eng | deep learning | de |
dc.subject.eng | regulatory SNPs | de |
dc.subject.eng | convolutional neural networks | de |
dc.subject.eng | vicia faba | de |
dc.identifier.urn | urn:nbn:de:gbv:7-ediss-14221-4 | |
dc.affiliation.institute | Fakultät für Agrarwissenschaften | de |
dc.subject.gokfull | Land- und Forstwirtschaft (PPN621302791) | de |
dc.description.embargoed | 2022-08-31 | de |
dc.identifier.ppn | 1815211024 | |
dc.identifier.orcid | 0000-0002-6093-8522 | de |
dc.notes.confirmationsent | Confirmation sent 2022-08-24T13:15:01 | de |