• Deutsch
    • English
  • Deutsch 
    • Deutsch
    • English
  • Einloggen
Dokumentanzeige 
  •   Startseite
  • Medizin
  • Human- und Zahnmedizin
  • Dokumentanzeige
  •   Startseite
  • Medizin
  • Human- und Zahnmedizin
  • Dokumentanzeige
JavaScript is disabled for your browser. Some features of this site may not work without it.

Assessment and Advancement of Genotype Imputation for genome-wide Association Studies

von Katharina Stahl
Dissertation
Datum der mündl. Prüfung:2025-05-09
Erschienen:2025-05-20
Betreuer:Prof. Dr. Heike Bickeböller
Gutachter:Prof. Dr. Heike Bickeböller
Gutachter:Prof. Dr. Thomas Kneib
crossref-logoZum Verlinken/Zitieren: http://dx.doi.org/10.53846/goediss-11285

 

 

Dateien

Name:Doktorarbeit_bib_online_fertig.pdf
Size:4.25Mb
Format:PDF
ViewOpen

Lizenzbestimmungen:


Zusammenfassung

Englisch

In genome-wide association studies (GWASs), genetic markers are independently tested across the whole genome to find genetic variants associated with a phenotype for a given population. The most commonly used markers for such analyses are single nucleotide polymorphisms (SNPs), which capture a great amount of genetic variation in humans. To keep the cost of genotyping low while maintaining power, a common approach is genotype imputation. Instead of fully in-depth sequencing of all individuals within a study, only a subset of SNPs is genotyped. This subset contains informative SNPs spread across the genome. The gaps between genotyped SNPs are imputed from a reference panel comprising ideally a large number of fully sequenced individuals of the same population. The imputation algorithm utilizes the genetic structure of linkage disequilibrium (LD) to find adequate matches between the reference panel and the study data set. To ensure confidence in the results of imputation and any following analysis, imputation quality is estimated, and SNPs not meeting a set quality threshold are discarded. Since the latter are not tested for association, this also reduces the multiple testing problem. Imputation quality measures estimate the accuracy based on the distribution of the imputed SNPs. This may result in poorly imputed SNPs not being discovered as such by probable, but wrongly, imputed genotypes. Further, there is no definite recommendation for setting the threshold for imputation quality, as different thresholds either prioritize discarding possibly wrongly imputed SNPs or preserving possibly correctly imputed SNPs. This method does not consider LD, which plays a major role both in imputation and the interpretation of GWAS results. One main objective of this thesis is to assess genotype imputation and quality control in GWAS settings. In this thesis, I compare the performance of different imputation tools and the performance of imputation quality control methods, both on simulated data and real data where some genotyped SNPs were removed and re-imputed. By direct comparison between imputed SNPs and ground truth genotypes, the accuracy of imputation and the effectiveness of quality control is quantified to identify weaknesses and explore solutions. Further, I conducted a simulation study to assess the performance of imputation quality control and introduced a new method for imputation quality control in GWAS, the Midrange Filter. By aggregating SNPs in close proximity to spikes, the Midrange Filter outperforms established imputation quality thresholds in the simulation study, which is supported in a real data application on the PsyCourse study. An implementation is publicly available. In addition, this thesis includes the analysis of longitudinal phenotypes of healthy controls in the PsyCourse study, many of which are hardly ever applied to individuals not diagnosed with psychological diseases on the affective-to-psychotic spectrum. The investigation found no strong evidence against the stability assumption of questionnaires and psychiatric scales. Further, the retest effect was identified in cognitive tests.
Keywords: GWAS; Genotype Imputation; Simulation Study; Quality Control; PsyCourse Study; Midrange Filter

Deutsch

In genomweiten Assoziationsstudien (GWASs) wird versucht genetische Varianten zu finden, die mit dem Phänotyp von Interesse zusammenhängen. Einzelnukleotid-Polymorphismen (SNPs) sind die am häufigsten genutzten Marker und decken einen Großteil der genetischen Variation in Menschen ab. Um die Kosten für die Genotypisierung gering zu halten, wird häufig Genotypimputation verwendet. Anstatt das ganze Genom zu genotypisieren, werden mit SNP-Arrays eine Auswahl besonders informative SNPs genotypisiert, die breit auf dem Genom verteilt sind. Die Lücken zwischen diesen SNPs werden im Idealfall mit einem sehr viel größerem Referenzdatensatz imputiert, der aus Individuen der gleichen Population besteht. Die Imputation benutzt Kopplungsungleichgewicht (LD) zwischen SNPs, um passende kurze Sequenzen im Referenzdatensatz zu identifizieren, die in die Lücken übernommen werden können. Die Qualität der Imputation wird dabei geschätzt, um die Verlässlichkeit der imputierten SNPs und allen darauffolgenden Analysen abzuwägen. Liegt diese Qualität unter einem gewissen Schwellwert, werden die betroffenen SNP aus dem Datensatz entfernt und nicht auf Assoziation getestet, was das multiple Testproblem vermindert. Die Maße der Imputationsqualität basieren auf der Verteilung der imputierten SNPs. Dies kann dazu führen, dass schlecht imputierte SNPS nicht als solche erkannt werden, wenn die Imputation ein wahrscheinliches, aber falsches Ergebnis liefert. Darüber hinaus gibt es keine definite Empfehlung wie hoch der Schwellwert für die Imputationsqualität zu setzen ist, da verschiedene Schwellwerte entweder nur die Präservation richtiger SNPs oder nur die Entfernung falscher SNPs priorisieren können. Diese Methode vernachlässigt LD, welches eine große Rolle sowohl in der Imputation als auch in der Interpretation von Resultaten einer GWAS spielt. Eines der Hauptziele dieser Dissertation ist es, die Genotypimputation und deren Qualitätskontrolle in GWASs zu untersuchen. In diesem Werk vergleiche ich die Leistung verschiedener Imputationsprogramme und Methoden der Qualitätskontrolle für imputierte SNPs, sowohl auf simulierten als auch auf echten Daten. Durch das Löschen und Imputieren von SNPs kann ein direkter Vergleich zwischen den ursprünglichen und den imputierten SNPs gezogen werden, was die Identifikation der Schwachstellen in der Imputation und eine Untersuchung zur Verbesserung der Qualitätskontrolle ermöglicht. Des Weiteren habe ich mit einer Simulationsstudie die Effektivität der Methoden zur Qualitätskontolle von imputierten SNPs in GWASs untersucht und eine neue Methode vorgestellt, den Midrange Filter. Durch die Zusammenfassung einzelner SNPs zu Spikes kann der Midrange Filter falsche und wahre Assoziationssignale besser als die etablierten Schwellwerte unterscheiden. Dieses Ergebnis wird von einer Anwendung in der PsyCourse Studie unterstützt. Eine Implementierung des Midrange Filters ist online frei verfügbar. Zusätzlich beinhaltet diese Arbeit die Analyse von longitudinalen Daten aus der Kontrollgruppe der PsyCourse Studie. Einige der betrachteten Phänotypen werden nur selten bei Individuen erfasst, die nicht an psychologischen Krankheiten leiden. Die Analyse hat keine robusten Hinweise gegen die Stabilität von Fragebögen und psychiatrischen Skalen bei gesunden Individuen gefunden. Darüber hinaus konnte der sogenannte Retest-Effekt in Tests zur Kognition identifiziert werden.
 

Statistik

Hier veröffentlichen

Blättern

Im gesamten BestandFakultäten & ProgrammeErscheinungsdatumAutorBetreuer & GutachterBetreuerGutachterTitelTypIn dieser FakultätErscheinungsdatumAutorBetreuer & GutachterBetreuerGutachterTitelTyp

Hilfe & Info

Publizieren auf eDissPDF erstellenVertragsbedingungenHäufige Fragen

Kontakt | Impressum | Cookie-Einwilligung | Datenschutzerklärung | Barrierefreiheit
eDiss - SUB Göttingen (Zentralbibliothek)
Platz der Göttinger Sieben 1
Mo - Fr 10:00 – 12:00 h


Tel.: +49 (0)551 39-27809 (allg. Fragen)
Tel.: +49 (0)551 39-28655 (Fragen zu open access/Parallelpublikationen)
ediss_AT_sub.uni-goettingen.de
[Bitte ersetzen Sie das "_AT_" durch ein "@", wenn Sie unsere E-Mail-Adressen verwenden.]
Niedersächsische Staats- und Universitätsbibliothek | Georg-August Universität
Bereichsbibliothek Medizin (Nur für Promovierende der Medizinischen Fakultät)
Robert-Koch-Str. 40
Mon – Fri 8:00 – 24:00 h
Sat - Sun 8:00 – 22:00 h
Holidays 10:00 – 20:00 h
Tel.: +49 551 39-8395 (allg. Fragen)
Tel.: +49 (0)551 39-28655 (Fragen zu open access/Parallelpublikationen)
bbmed_AT_sub.uni-goettingen.de
[Bitte ersetzen Sie das "_AT_" durch ein "@", wenn Sie unsere E-Mail-Adressen verwenden.]