• Deutsch
    • English
  • English 
    • Deutsch
    • English
  • Login
Item View 
  •   Home
  • Naturwissenschaften, Mathematik und Informatik
  • Fakultät für Agrarwissenschaften (inkl. GAUSS)
  • Item View
  •   Home
  • Naturwissenschaften, Mathematik und Informatik
  • Fakultät für Agrarwissenschaften (inkl. GAUSS)
  • Item View
JavaScript is disabled for your browser. Some features of this site may not work without it.

Identification of regulatory SNPs and epistatic SNP pairs using deep learning and information theory

by Felix Heinrich
Doctoral thesis
Date of Examination:2022-07-12
Date of issue:2022-08-24
Advisor:Prof. Dr. Armin Schmitt
Referee:Prof. Dr. Armin Schmitt
Referee:Prof. Dr. Stephan Waack
Referee:Prof. Dr. Murtaza Özgür Yeniay
crossref-logoPersistent Address: http://dx.doi.org/10.53846/goediss-9415

 

 

Files in this item

Name:Publishing_Dissertation_Felix_Heinrich.pdf
Size:11.8Mb
Format:PDF
ViewOpen

The following license files are associated with this item:


Abstract

English

In the last two decades, new technologies have made DNA genotyping and sequencing far more time and cost efficient. The resulting tremendous increase in the amount of available genomic data allows for a deeper understanding of the relationship between the genotype and the phenotype. In this thesis, I present two novel frameworks which analyze specific aspects of the relationship between the genotype and the phenotype, namely the identification of regulatory SNPs (rSNPs) as well as the detection of epistatic SNP pairs. In my first framework, I utilized deep learning to train a convolutional neural network for the prediction of promoter sequences in the species Vicia faba. By exploiting the conservation of promoter signatures across closely related species, I avoided the need for the expensive and time-consuming task of assembling and annotating a reference genome for the species under study. With the detected promoter regions, I was then able to analyze putative rSNPs in terms of their effects on the binding of transcription factors. Finally, my results revealed two rSNPs which were highly associated with the trait under study, namely the vicine and convicine content (V+C) of the plants. These markers could then be further used in plant breeding programs that target a low V+C content. Furthermore, I thereby demonstrated that an annotated reference genome is not always necessary for this type of analysis. For my second framework, I developed a method named MIDESP for the detection of epistatic interactions between SNP pairs based on mutual information. This method extends the existing information theory-based approaches for epistasis detection in two key areas. First, by adopting a kth-nearest neighbor-based approach for estimating mutual information, it is the first mutual information-based method which can be applied to detect epistasis for qualitative as well as quantitative phenotypes. Secondly, the method incorporates the average product correction (APC) to deal with possible complications in a genotype-phenotype dataset, which may otherwise give rise to the detection of false-positive interactions. I showcase the performance of MIDESP and its different aspects by means of simulated as well as real datasets, which were related to bovine tuberculosis and the weight of chicken eggs, respectively. Comparing the results with and without the application of the APC showed that the correction is necessary to reduce the prediction of false-positive interactions. Overall, both of my frameworks provide novel insights into specific mechanisms underlying the relationship between the genotype and the phenotype and identify important SNPs that are participating in these mechanisms.
Keywords: information theory; mutual information; epistasis; deep learning; regulatory SNPs; convolutional neural networks; vicia faba

German

In den letzten zwei Jahrzehnten haben neue Technologien die DNA-Genotypisierung und -Sequenzierung wesentlich zeit- und kosteneffizienter gemacht. Die dadurch erzielte enorme Zunahme der verfügbaren Genomdaten ermöglicht ein tieferes Verständnis der Beziehung zwischen dem Genotyp und dem Phänotyp. In dieser Arbeit stelle ich zwei neuartige Verfahren vor, die spezifische Aspekte der Beziehung zwischen Genotyp und Phänotyp analysieren, nämlich die Identifizierung von regulatorischen SNPs (rSNPs) und die Erkennung epistatischer SNP-Paare. Bei meiner ersten Methode setze ich maschinelles Lernen ein, um ein neuronales Faltungsnetzwerk für die Vorhersage von Promotersequenzen in der Art Vicia faba zu trainieren. Durch die Ausnutzung der Konservierung von Promotersignaturen bei eng verwandten Arten, konnte ich die teure und zeitaufwändige Aufgabe der Assemblierung und Annotation eines Referenzgenomes für die untersuchte Art vermeiden. Anhand der entdeckten Promoterregionen konnte ich dann mutmaßliche rSNPs in Bezug auf ihre Auswirkungen auf die Bindung von Transkriptionsfaktoren analysieren. Schlussendlich ergaben meine Ergebnisse zwei rSNPs, die in hohem Maße mit dem untersuchten Merkmal assoziiert waren, nämlich dem Vicin- und Convicin-Gehalt (V+C) der Pflanzen. Diese Marker könnten dann in Pflanzenzuchtprogrammen verwendet werden, die auf einen niedrigen V+C-Gehalt abzielen. Ich habe damit ebenfalls gezeigt, dass für diese Art der Analyse nicht immer ein annotiertes Referenzgenom erforderlich ist. Für meinen zweiten Ansatz habe ich eine Methode namens MIDESP zur Erkennung epistatischer Interaktionen zwischen SNP-Paaren auf Grundlage der wechselseitigen Information entwickelt. Diese Methode erweitert die bestehenden auf der Informationstheorie basierenden Ansätze zur Epistasisdetektion in zwei Schlüsselbereichen. Erstens ist sie durch die Anwendung eines k-nächsten Nachbarn-basierten Ansatzes zur Schätzung der wechselseitigen Information die erste auf wechselseitiger Information basierende Methode, die zur Erkennung von Epistasis sowohl für qualitative als auch für quantitative Phänotypen angewendet werden kann. Zweitens beinhaltet die Methode die sogenannte “average product correction” (APC), um mit möglichen Komplikationen in einem Genotyp-Phänotyp-Datensatz umzugehen, die andernfalls zur Erkennung von falsch-positiven Interaktionen führen könnten. Ich demonstriere die Leistung von MIDESP und seiner verschiedenen Aspekte anhand von simulierten und realen Datensätzen, die sich auf Rindertuberkulose bzw. das Gewicht von Hühnereiern beziehen. Der Vergleich der Ergebnisse mit und ohne Anwendung der APC zeigte, dass die Korrektur notwendig ist, um die Anzahl von falsch-positiven Interaktionen zu reduzieren. Insgesamt liefern meine beiden Methoden neue Einblicke in spezifische Mechanismen, die der Beziehung zwischen Genotyp und Phänotyp zugrunde liegen, und identifizieren wichtige SNPs, die an diesen Mechanismen beteiligt sind.
 

Statistik

Publish here

Browse

All of eDissFaculties & ProgramsIssue DateAuthorAdvisor & RefereeAdvisorRefereeTitlesTypeThis FacultyIssue DateAuthorAdvisor & RefereeAdvisorRefereeTitlesType

Help & Info

Publishing on eDissPDF GuideTerms of ContractFAQ

Contact Us | Impressum | Cookie Consents | Data Protection Information
eDiss Office - SUB Göttingen (Central Library)
Platz der Göttinger Sieben 1
Mo - Fr 10:00 – 12:00 h


Tel.: +49 (0)551 39-27809 (general inquiries)
Tel.: +49 (0)551 39-28655 (open access/parallel publications)
ediss_AT_sub.uni-goettingen.de
[Please replace "_AT_" with the "@" sign when using our email adresses.]
Göttingen State and University Library | Göttingen University
Medicine Library (Doctoral candidates of medicine only)
Robert-Koch-Str. 40
Mon – Fri 8:00 – 24:00 h
Sat - Sun 8:00 – 22:00 h
Holidays 10:00 – 20:00 h
Tel.: +49 551 39-8395 (general inquiries)
Tel.: +49 (0)551 39-28655 (open access/parallel publications)
bbmed_AT_sub.uni-goettingen.de
[Please replace "_AT_" with the "@" sign when using our email adresses.]