• Deutsch
    • English
  • English 
    • Deutsch
    • English
  • Login
Item View 
  •   Home
  • Medizin
  • Human- und Zahnmedizin
  • Item View
  •   Home
  • Medizin
  • Human- und Zahnmedizin
  • Item View
JavaScript is disabled for your browser. Some features of this site may not work without it.

Assessment and Advancement of Genotype Imputation for genome-wide Association Studies

by Katharina Stahl
Doctoral thesis
Date of Examination:2025-05-09
Date of issue:2025-05-20
Advisor:Prof. Dr. Heike Bickeböller
Referee:Prof. Dr. Heike Bickeböller
Referee:Prof. Dr. Thomas Kneib
crossref-logoPersistent Address: http://dx.doi.org/10.53846/goediss-11285

 

 

Files in this item

Name:Doktorarbeit_bib_online_fertig.pdf
Size:4.25Mb
Format:PDF
ViewOpen

The following license files are associated with this item:


Abstract

English

In genome-wide association studies (GWASs), genetic markers are independently tested across the whole genome to find genetic variants associated with a phenotype for a given population. The most commonly used markers for such analyses are single nucleotide polymorphisms (SNPs), which capture a great amount of genetic variation in humans. To keep the cost of genotyping low while maintaining power, a common approach is genotype imputation. Instead of fully in-depth sequencing of all individuals within a study, only a subset of SNPs is genotyped. This subset contains informative SNPs spread across the genome. The gaps between genotyped SNPs are imputed from a reference panel comprising ideally a large number of fully sequenced individuals of the same population. The imputation algorithm utilizes the genetic structure of linkage disequilibrium (LD) to find adequate matches between the reference panel and the study data set. To ensure confidence in the results of imputation and any following analysis, imputation quality is estimated, and SNPs not meeting a set quality threshold are discarded. Since the latter are not tested for association, this also reduces the multiple testing problem. Imputation quality measures estimate the accuracy based on the distribution of the imputed SNPs. This may result in poorly imputed SNPs not being discovered as such by probable, but wrongly, imputed genotypes. Further, there is no definite recommendation for setting the threshold for imputation quality, as different thresholds either prioritize discarding possibly wrongly imputed SNPs or preserving possibly correctly imputed SNPs. This method does not consider LD, which plays a major role both in imputation and the interpretation of GWAS results. One main objective of this thesis is to assess genotype imputation and quality control in GWAS settings. In this thesis, I compare the performance of different imputation tools and the performance of imputation quality control methods, both on simulated data and real data where some genotyped SNPs were removed and re-imputed. By direct comparison between imputed SNPs and ground truth genotypes, the accuracy of imputation and the effectiveness of quality control is quantified to identify weaknesses and explore solutions. Further, I conducted a simulation study to assess the performance of imputation quality control and introduced a new method for imputation quality control in GWAS, the Midrange Filter. By aggregating SNPs in close proximity to spikes, the Midrange Filter outperforms established imputation quality thresholds in the simulation study, which is supported in a real data application on the PsyCourse study. An implementation is publicly available. In addition, this thesis includes the analysis of longitudinal phenotypes of healthy controls in the PsyCourse study, many of which are hardly ever applied to individuals not diagnosed with psychological diseases on the affective-to-psychotic spectrum. The investigation found no strong evidence against the stability assumption of questionnaires and psychiatric scales. Further, the retest effect was identified in cognitive tests.
Keywords: GWAS; Genotype Imputation; Simulation Study; Quality Control; PsyCourse Study; Midrange Filter

German

In genomweiten Assoziationsstudien (GWASs) wird versucht genetische Varianten zu finden, die mit dem Phänotyp von Interesse zusammenhängen. Einzelnukleotid-Polymorphismen (SNPs) sind die am häufigsten genutzten Marker und decken einen Großteil der genetischen Variation in Menschen ab. Um die Kosten für die Genotypisierung gering zu halten, wird häufig Genotypimputation verwendet. Anstatt das ganze Genom zu genotypisieren, werden mit SNP-Arrays eine Auswahl besonders informative SNPs genotypisiert, die breit auf dem Genom verteilt sind. Die Lücken zwischen diesen SNPs werden im Idealfall mit einem sehr viel größerem Referenzdatensatz imputiert, der aus Individuen der gleichen Population besteht. Die Imputation benutzt Kopplungsungleichgewicht (LD) zwischen SNPs, um passende kurze Sequenzen im Referenzdatensatz zu identifizieren, die in die Lücken übernommen werden können. Die Qualität der Imputation wird dabei geschätzt, um die Verlässlichkeit der imputierten SNPs und allen darauffolgenden Analysen abzuwägen. Liegt diese Qualität unter einem gewissen Schwellwert, werden die betroffenen SNP aus dem Datensatz entfernt und nicht auf Assoziation getestet, was das multiple Testproblem vermindert. Die Maße der Imputationsqualität basieren auf der Verteilung der imputierten SNPs. Dies kann dazu führen, dass schlecht imputierte SNPS nicht als solche erkannt werden, wenn die Imputation ein wahrscheinliches, aber falsches Ergebnis liefert. Darüber hinaus gibt es keine definite Empfehlung wie hoch der Schwellwert für die Imputationsqualität zu setzen ist, da verschiedene Schwellwerte entweder nur die Präservation richtiger SNPs oder nur die Entfernung falscher SNPs priorisieren können. Diese Methode vernachlässigt LD, welches eine große Rolle sowohl in der Imputation als auch in der Interpretation von Resultaten einer GWAS spielt. Eines der Hauptziele dieser Dissertation ist es, die Genotypimputation und deren Qualitätskontrolle in GWASs zu untersuchen. In diesem Werk vergleiche ich die Leistung verschiedener Imputationsprogramme und Methoden der Qualitätskontrolle für imputierte SNPs, sowohl auf simulierten als auch auf echten Daten. Durch das Löschen und Imputieren von SNPs kann ein direkter Vergleich zwischen den ursprünglichen und den imputierten SNPs gezogen werden, was die Identifikation der Schwachstellen in der Imputation und eine Untersuchung zur Verbesserung der Qualitätskontrolle ermöglicht. Des Weiteren habe ich mit einer Simulationsstudie die Effektivität der Methoden zur Qualitätskontolle von imputierten SNPs in GWASs untersucht und eine neue Methode vorgestellt, den Midrange Filter. Durch die Zusammenfassung einzelner SNPs zu Spikes kann der Midrange Filter falsche und wahre Assoziationssignale besser als die etablierten Schwellwerte unterscheiden. Dieses Ergebnis wird von einer Anwendung in der PsyCourse Studie unterstützt. Eine Implementierung des Midrange Filters ist online frei verfügbar. Zusätzlich beinhaltet diese Arbeit die Analyse von longitudinalen Daten aus der Kontrollgruppe der PsyCourse Studie. Einige der betrachteten Phänotypen werden nur selten bei Individuen erfasst, die nicht an psychologischen Krankheiten leiden. Die Analyse hat keine robusten Hinweise gegen die Stabilität von Fragebögen und psychiatrischen Skalen bei gesunden Individuen gefunden. Darüber hinaus konnte der sogenannte Retest-Effekt in Tests zur Kognition identifiziert werden.
 

Statistik

Publish here

Browse

All of eDissFaculties & ProgramsIssue DateAuthorAdvisor & RefereeAdvisorRefereeTitlesTypeThis FacultyIssue DateAuthorAdvisor & RefereeAdvisorRefereeTitlesType

Help & Info

Publishing on eDissPDF GuideTerms of ContractFAQ

Contact Us | Impressum | Cookie Consents | Data Protection Information | Accessibility
eDiss Office - SUB Göttingen (Central Library)
Platz der Göttinger Sieben 1
Mo - Fr 10:00 – 12:00 h


Tel.: +49 (0)551 39-27809 (general inquiries)
Tel.: +49 (0)551 39-28655 (open access/parallel publications)
ediss_AT_sub.uni-goettingen.de
[Please replace "_AT_" with the "@" sign when using our email adresses.]
Göttingen State and University Library | Göttingen University
Medicine Library (Doctoral candidates of medicine only)
Robert-Koch-Str. 40
Mon – Fri 8:00 – 24:00 h
Sat - Sun 8:00 – 22:00 h
Holidays 10:00 – 20:00 h
Tel.: +49 551 39-8395 (general inquiries)
Tel.: +49 (0)551 39-28655 (open access/parallel publications)
bbmed_AT_sub.uni-goettingen.de
[Please replace "_AT_" with the "@" sign when using our email adresses.]