Zur Kurzanzeige

Accuracy of Genomic Prediction in Dairy Cattle

dc.contributor.advisorSimianer, Henner Prof. Dr.
dc.contributor.authorErbe, Malena
dc.date.accessioned2013-12-06T08:33:48Z
dc.date.available2013-12-06T08:33:48Z
dc.date.issued2013-12-06
dc.identifier.urihttp://hdl.handle.net/11858/00-1735-0000-0022-5D61-E
dc.identifier.urihttp://dx.doi.org/10.53846/goediss-4248
dc.identifier.urihttp://dx.doi.org/10.53846/goediss-4248
dc.description.abstractDie genomische Zuchtwertschätzung ist vor allem im Bereich der Milchrinderzucht in den letzten Jahren zu einer beliebten Methode geworden, um sichere Zuchtwerte von Tieren ohne phänotypische Information zu erhalten. Das Ziel dieser Arbeit war es, verschiedene Einflussfaktoren auf die Genauigkeit der genomischen Zuchtwertschätzung in realen Rinderdatensätzen genauer zu untersuchen. In Kapitel 2 findet sich eine grundlegende Arbeit zur Kreuzvalidierung, in der die Eigenschaften verschiedener Kreuzvalidierungsstrategien in realen Datensätzen untersucht wurden. Kreuzvalidierung bedeutet, dass die verfügbaren Daten in eine Trainings- und eine Validierungsstichprobe aufgeteilt werden, wobei für die Individuen in der Validierungsstichprobe alle Beobachtungswerte als nicht vorhanden angenommen werden. Die Werte der Individuen in der Validierungsstichprobe werden dann mit einem Modell, das mit Hilfe der Beobachtungswerte der Individuen in der Trainingsstichprobe angepasst wird, vorhergesagt. Im Kontext der genomischen Zuchtwertschätzung werden Kreuzvalidierungsstrategien benutzt, um die Genauigkeit der genomischen Zuchtwertschätzung mit einer bestimmten Trainingspopulation abzubilden. Die Korrelation zwischen maskierten und vorhergesagten Werten der Tiere in der Validierungsstichprobe spiegelt die Genauigkeit der genomischen Zuchtwertschätzung wider. Die Art und Weise, wie der Datensatz in Trainings- und Validierungsstichprobe unterteilt wird, kann die Ergebnisse einer Kreuzvalidierung beeinflussen. Das Ziel dieser Studie war es deshalb, optimale Strategien für unterschiedliche Zwecke – Beschreibung der Genauigkeit der genomischen Vorhersage für mögliche Selektionskandidaten mit dem vorhandenen Datensatz oder Vergleich von zwei Methoden zur Vorhersage – zu finden. Ein Datensatz von etwa 2‘300 Holstein Friesian-Bullen, die mit dem Illumina BovineSNP50 BeadChip (im Folgenden 50K Chip genannt) typisiert waren, wurde unterschiedlich aufgeteilt, so dass sich zwischen 800 bis 2‘200 Tiere in der Trainingsstichprobe und die jeweils restlichen Tiere in der Validierungsstichprobe befanden. Zwei BLUP-Modelle, eines mit einem zufälligen genomischen Effekt und eines mit einem zufälligen polygenen und einem zufälligen genomischen Effekt, wurden zur Vorhersage verwendet. Die höchste Genauigkeit der Vorhersage konnte mit der größten Trainingsstichprobe erreicht werden. Eine große Trainingsstichprobe bei gegebenem limitierten Datenmaterial impliziert aber auch, dass gleichzeitig die Validierungsstichproben klein und damit die Standardfehler der beobachteten Genauigkeiten sehr hoch sind. Falls es das Ziel einer Studie ist, signifikante Unterschiede zwischen Modellen nachzuweisen, ist es besser größere Validierungsstichproben zu verwenden. Eine fünffache Kreuzvalidierung scheint in vielen Fällen ein guter Kompromiss zu sein. Die Verwandtschaftsstruktur zwischen den Tieren in der Trainings- und der Validierungsstichprobe hat einen großen Effekt auf die Genauigkeit der genomischen Zuchtwertschätzung. Momentan sind noch genügend nachkommengeprüfte Bullen in den Trainingsstichproben vorhanden, mit denen die Tiere in der Validierungsstichprobe hoch verwandt sind. Wenn die genomische Selektion konsequent angewendet wird, ist es möglich, dass solche Individuen für die Trainingsstichprobe knapper werden. Deshalb enthält Kapitel 3 eine Studie, die untersucht, wie sich die Verwandtschafts- und Altersstruktur auf die Genauigkeit der genomischen Zuchtwerte von jungen Bullen auswirkt. Ein Datensatz mit 5‘698 Bullen der Rasse Holstein Friesian, die alle mit dem 50K Chip typisiert wurden und zwischen 1981 und 2005 geboren wurden, war die Basis dieser Arbeit. In allen Szenarien wurden die 500 jüngsten Bullen dieses Datensatzes als Validierungsstichprobe verwendet. Verschiedene Trainingsstichproben mit je 1‘500 Individuen wurden ausgewählt, um die genomischen Zuchtwerte der jungen Tiere (Selektionskandidaten) vorherzusagen: eine zufällige Auswahl an Bullen, die ältesten und jüngsten verfügbaren Tiere, Tiere mit Verwandtschaftskoeffizienten kleiner 0.25 oder 0.5 zu allen Selektionskandidaten, oder Tiere, die am stärksten mit den Selektionskandidaten verwandt waren. Verglichen mit dem Szenario mit der zufälligen Auswahl führte eine Verringerung der Verwandtschaft zu einer sichtbaren Abnahme der Genauigkeit der genomischen Vorhersage. Die Genauigkeit für die Szenarien mit den hoch verwandten Tieren bzw. den jüngsten Tieren in der Trainingsstichprobe war hingegen höher. Für die praktische Anwendung bedeutet dies, dass in stark verwandten Gruppen wie Elitebullen der Rasse Holstein Friesian keine weiteren Probleme für die Vorhersage junger Tiere zu erwarten sind, solange Väter, Voll- und Halbgeschwister in der Trainingsstichprobe vorhanden sind. Neue nachkommengeprüfte Bullen sollten deshalb kontinuierlich zur Trainingsstichprobe hinzugefügt werden – sonst wird eine klare Abnahme der Genauigkeit schon nach ein oder zwei Generationen zu sehen sein. Kapitel 4 beschäftigt sich mit zwei weiteren Faktoren, die die Genauigkeit der genomischen Vorhersage beeinflussen können: Markerdichte und Methodenwahl. Bis jetzt wurden normalerweise 50K SNPs für die genomische Zuchtwertschätzung verwendet, aber seit Kurzem ist auch ein neues hochdichtes SNP-Array mit 777K SNPs verfügbar. Dies lässt die Frage aufkommen, ob die höhere Markerdichte zu einem Anstieg in der Genauigkeit führen kann. Je mehr Marker verfügbar sind, umso größer wird auch die Notwendigkeit, Methoden zu entwickeln, die einen Teil der Marker als nicht informativ (d.h. ohne Effekt auf das untersuchte Merkmal) zulassen. Deshalb wurde eine neue und effiziente Bayes’sche Methode (BayesR) entwickelt, die annimmt, dass die SNP Effekte aus einer Reihe von Normalverteilungen stammen, die unterschiedliche Varianzen haben. Die Anzahl der SNPs pro Verteilung wird nicht festgesetzt, sondern mit Hilfe einer Dirichlet-Verteilung modelliert. In Kapitel 4 wird außerdem auf die Frage eingegangen, wie sich die Genauigkeit der Vorhersage im Fall von Trainingsstichproben mit mehreren Rassen bei unterschiedlicher Markerdichte verhält. Bei Milchrinderrassen sind große Trainingsstichproben erforderlich, um robuste Schätzer der SNP-Effekte zu erhalten, aber gerade bei kleinen Rassen kann es schwierig sein, solch große Trainingsstichproben aufzubauen. Trainingsstichproben, die Tiere mehrerer Rassen enthalten, können deshalb eine Möglichkeit sein, dieses Problem zu umgehen. Mit 50K SNPs war der Erfolg solcher Mehrrassen-Trainingsstichproben gering, was darauf zurückgeführt wurde, dass die Haplotypenstruktur über die Rassen hinweg bei dieser Markerdichte nicht konsistent war. Der hochdichte SNP-Chip könnte hier allerdings Verbesserungen für die Vorhersage über Rassen hinweg bringen. Die Veränderungen in der Genauigkeit der genomischen Zuchtwertschätzung innerhalb einer Rasse und über Rassen hinweg wurden mit Daten von australischen Bullen der Rassen Holstein Friesian und Jersey, die mit dem 50K Chip typisiert und auf 777K SNPs imputet waren, und zwei verschiedenen Methoden (GBLUP, BayesR) untersucht. Die Verwendung von imputeten hochdichten Markern führte zu keinem signifikanten Anstieg der Genauigkeit innerhalb einer Rasse und nur zu einer geringen Verbesserung der Genauigkeit in der kleineren Rasse im Mehrrassen-Szenario. BayesR lieferte gleichwertige oder in vielen Fällen höhere Genauigkeiten als GBLUP. Eine Eigenschaft von BayesR ist außerdem, dass es möglich ist, aus den Ergebnissen Erkenntnisse zur genetischen Architektur des Merkmals zu erhalten, z.B. indem man die durchschnittliche Anzahl an SNPs in den verschiedenen Verteilungen betrachtet. Die Genauigkeit der genomischen Zuchtwertschätzung kann mit verschiedenen Validierungsprozeduren berechnet werden, sobald reale Daten vorhanden sind. In manchen Situationen kann es jedoch von Vorteil sein, wenn man die erwartete Genauigkeit der Vorhersage im Vorfeld einer Studie abschätzen kann, z.B. um zu wissen, welche Größe die Trainingsstichprobe haben sollte oder wie hoch die Markerdichte sein sollten, um eine bestimmte Genauigkeit zu erreichen. Verschiedene deterministische Formeln zur Abschätzung der erreichbaren Genauigkeit sind in der Literatur verfügbar, die alle auf den mehr oder weniger gleichen Parametern beruhen. Einer dieser Parameter ist die Anzahl unabhängig segregierender Chromosomensegmente (Me), die normalerweise mit Hilfe von theoretischen Werten wie der effektiven Populationsgröße (Ne) deterministisch bestimmt wird. In Kapitel 5 wird ein Maximum-Likelihood Ansatz beschrieben, der es ermöglicht, Me basierend auf systematisch angelegten Kreuzvalidierungsexperimenten empirisch zu bestimmen. Darauf aufbauend wurden verschiedene deterministische Funktionen zur Vorhersage der Genauigkeit verglichen und so modifiziert, dass sie am besten zu den vorhandenen Datensätzen passten. Mit 5‘698 Holstein Friesian-Bullen, die mit dem 50K Chip typisiert waren, und 1‘333 Braunvieh-Bullen, die mit dem 50K Chip typisiert und auf 777K SNPs imputet waren, wurden mit GBLUP verschiedene k-fache Kreuzvalidierungen (k=2, 3, …, 10, 15, 20) durchgeführt. So konnte eine genomische Zuchtwertschätzung bei unterschiedlichen Größen der Trainingsstichprobe nachgebildet werden. Weiterhin wurden alle Szenarien mit verschiedenen Subsets der vorhandenen SNPs (10‘000, 20‘000, 30‘000, 42‘551 SNPs für Holstein Friesian, und jeder, jeder zweite, jeder 4., … jeder 256. SNP für Braunvieh) durchgeführt, um den Einfluss der Markerdichte erfassen zu können. Der Maximum-Likelihood Ansatz wurde angewendet, um Me für die beiden vorhandenen Datensätze bestmöglich zu schätzen. Die höchste Likelihood wurde erreicht, wenn eine modifizierte Form der deterministischen Formel von Daetwyler et al. (2010, Genetics 185:1021-1031) für die Modellierung der erwarteten Genauigkeit die Grundlage bildete. Die wahrscheinlichsten Werte für Me, wenn alle vorhandenen Marker genutzt wurden, waren 1‘241 (412) und 1‘046 (197) für die Merkmale Zellzahl und Milchmenge für Holstein Friesian (Braunvieh). Die Werte für Me für Braunvieh und Holstein Friesian unterschieden sich deutlich, während Ne für beide Populationen (berechnet auf Basis des Pedigrees oder über die Struktur des Kopplungsungleichgewichts) sehr ähnlich war. Die Schätzungen für Me variierten zwischen verschiedenen Merkmalen innerhalb von Populationen und über Populationen mit ähnlichen Populationsstrukturen hinweg. Dies zeigt, dass Me wahrscheinlich kein Parameter ist, der sich nur aus Ne und der Länge des Genoms berechnen lässt. Die Modifizierung der Formel von Daetwyler et al. (2010) bestand darin, einen Gewichtungsfaktor hinzuzufügen, der berücksichtigt, dass die maximale Genauigkeit bei gegebener Markerdichte auch mit unendlich großer Trainingsstichprobe nicht 1 sein muss. Dies basiert auf der Annahme, dass die vorhandenen SNPs nicht die ganze genetische Varianz wiedergeben können. Auch dieser Gewichtungsfaktor wurde empirisch bestimmt. Die quadrierten Werte, d.h. der Prozentsatz der genetischen Varianz, die erklärt wird, lagen zwischen 76% und 82% für 10‘000 bis 42‘551 SNPs bei Holstein Friesian und zwischen 63% und 75% für 2‘451 bis 627‘306 SNPs bei Braunvieh. Zwischen dem natürlichen Logarithmus der Markerdichte und dem Gewichtungsfaktor bestand ein linearer Zusammenhang bis zu einer populationsspezifischen Grenze hinsichtlich der Markerdichte (~ 20‘000 SNPs bei Braunvieh). Oberhalb dieser Grenze fand sich ein Plateau, was bedeutet, dass das Hinzufügen von weiteren Markern den Anteil der genetischen Varianz, der erklärt wird, nicht mehr verändert.de
dc.language.isoengde
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/
dc.subject.ddc630de
dc.titleAccuracy of Genomic Prediction in Dairy Cattlede
dc.typedoctoralThesisde
dc.contributor.refereeSimianer, Henner Prof. Dr.
dc.date.examination2013-05-16
dc.description.abstractengPrediction of genomic breeding values has become a popular tool for obtaining reliable breeding values of animals without phenotypic information, especially in dairy cattle breeding. The main focus of this thesis was to investigate different factors that influence the accuracy of predicted genomic breeding values in real dairy cattle data sets. A basic study on cross-validation in dairy cattle is presented in Chapter 2. The study was designed to figure out properties of different cross-validation strategies in real data sets. Cross-validation implies dividing the available data set into training and validation set, masking observations of all individuals in the validation set and predicting this information with a model trained with individuals in the training set. In the context of genomic breeding value prediction, cross-validation can be used to assess the accuracy of genomic breeding values for candidates given a specific reference population. The correlation between masked and predicted values for the validation individuals then reflects the accuracy of prediction. The way of how the data is subdivided may influence the results obtained with cross-validation. Thus, this study tried to find an optimal subdivision strategy for different purposes – describing the accuracy for potential candidates when having the available data set for training on the one hand and differentiating between two proposed models on the other hand. A data set of around 2’300 Holstein Friesian bulls genotyped with the Illumina BovineSNP50 BeadChip (termed 50K Chip in the following) was divided in different ways having around 800 up to 2’200 individuals in the training and the remaining individuals in the validation set. Two BLUP approaches, one containing only a random genomic effect and one containing a random polygenic and a random genomic effect, were applied. The highest accuracies could be obtained with the largest training sets, but this also implicates that the validation set was small and the standard error of the obtained accuracy was inflated. Hence, if the purpose is to find significant differences between approaches, larger validation sets are recommended. A five-fold cross-validation in most cases appears to be a good compromise. Relationship structure between individuals in the training and in the validation set has a big impact on the accuracy of genomic prediction. At the moment, there are still enough progeny-tested training bulls that are highly related to the validation set. If genomic selection will be consequently applied, there may, however, be a lack of such training individuals. Thus, Chapter 3 comprises investigations on how the relationship and age structure influences the accuracy of genomic breeding values of young bulls. A study using 5’698 Holstein Friesian bulls genotyped with the 50K Chip and born between 1981 and 2005 was designed taking always the 500 youngest bulls as a constant validation set over all scenarios. Different training sets of 1’500 individuals were used to predict genomic breeding values for those candidates: bulls were chosen randomly, were among the oldest or youngest bulls in the remaining data set, had a maximum relationship of less than 0.25 or 0.5 to the candidates or were highest related with the candidates. Compared to the random standard scenario, reduced relationship levels led to an apparent decrease of accuracy in prediction. Accuracy of prediction was higher for the scenarios with the highly related individuals and with the youngest bulls in the training sets. For practical application in strongly related samples like progeny tested Holstein Friesian bulls there is not critical point as long as sires, half or full sibs are in the training set. New progeny tested bulls should therefore be continuously added to the training set. Otherwise a clear decrease of accuracy of prediction will be observable even after only one or two generations. Chapter 4 deals with two further factors that may influence the accuracy of genomic prediction, namely the marker density and the method used for prediction. Usually 50K SNPs have been used for genomic prediction so far, but lately a new high density (HD) SNP array with 777K has become available. Thus, the question has arisen whether higher marker density will lead to an increase in prediction accuracy. The more markers have to be modeled the more important may be the development of prediction approaches that allow a proportion of SNPs to be uninformative. Therefore, a new and efficient Bayesian method (BayesR) was developed assuming SNP effects are derived from a series of normal distributions that have different variances and with the number of SNPs per distribution being not fixed but modeled with a Dirichlet distribution. Furthermore, this chapter also addresses the issue of multi-breed training sets with different marker densities. In dairy cattle, large training sets are necessary to obtain robust estimates of SNP effects, but building large reference sets may be challenging for smaller breeds. Multi-breed training sets can be an option to overcome this problem. With 50K marker sets the increase in accuracy, however, was very limited, probably because of a lack of consistent phases between breeds with this marker density. Having a high density marker set available should thus be beneficial also for the across breed prediction. Data sets of Australian Holstein and Australian Jersey bulls, all genotyped with the 50K Chip and imputed to 777K, were used to investigate the changes in accuracy of genomic prediction within and between breeds with a GBLUP approach and BayesR. Using imputed high density data did not lead to a significant increase of accuracy for the within breed situation and led only to a small increase in the multi-breed scenario for the minor breed. BayesR always produced comparable or better results than the GBLUP approach. An additional feature of BayesR is that one can learn more about the architecture of quantitative traits, e.g. by considering the average number of SNPs in the different distributions. The accuracy of genomic prediction when having data available can be calculated using different validation procedures. However, in some situations, it may be useful to assess the expected accuracy of prediction in advance of a genomic breeding value prediction study, e.g. because one wants to know the required size of the training set or the SNP density to achieve a predefined level of accuracy. Different deterministic equations to predict the accuracy level have been suggested in the literature and all rely more or less on the same parameters. One of these parameters is the number of independently segregating chromosome segments (Me) that is normally determined based on theoretical population parameters like effective population size (Ne) of the underlying population. In Chapter 5, a maximum likelihood approach is presented that allows determining the number of Me empirically based on a systematic multi-level cross-validation. Based on this, various deterministic prediction equations were compared and modified to fit best to the data. 5’698 Holstein bulls genotyped with the 50K Chip and 1333 Brown Swiss bulls genotyped with the 50K Chip and imputed to 777K SNPs were used for cross-validation studies with different k-fold scenarios (k=2, 3, …, 10, 15, 20) in a genomic BLUP framework. It was thus possible to mimic genomic prediction with different sizes of training sets based on different subsets of SNPs (10’000, 20’000, 30’000, 42’551 SNPs for Holstein Friesian and 2’451, 4’901, …, 627’306 SNPs for Brown Swiss) to study the influence of the SNP density. A maximum likelihood approach was then used to estimate the best value for the number of Me based on the empirical observed data. The highest likelihood was obtained when using a modified form of the deterministic equation of Daetwyler et al. (2010, Genetics 185:1021-1031) as expected accuracy. The most likely values for Me using all available markers were 1’241 (412) and 1’046 (197) for the traits somatic cell score and milk yield in Holstein Friesian (Brown Swiss), respectively. Values of Me were different in Brown Swiss and Holstein Friesian, while Ne of both populations calculated from pedigree and linkage disequilibrium structure was very similar. Having those results at hand it seems that Me is not a parameter that can be easily modeled by the effective population size and the genome length deterministically since it varies between traits within population and even between populations with similar structure. The modification of the formula of Daetwyler et al. (2010) consists of adding a weighting factor based on the assumption that the maximal achievable accuracy with a given SNP set is not one. This was assumed due to the fact that not all of the genetic variance can be captured by the available SNP set. Values for the squared weighting factor, i.e. the percentage of genetic variance captured, were also empirically determined and were between 76% and 82% with SNP subsets of 10’000 up to 42’551 SNPs for Holstein Friesian and between 63% and 75% with SNP subsets of 2’451 up to 627’306 SNPs for Brown Swiss. There is a linear relationship between the weighting factor and the logarithm of the marker density up to a population specific marker density (e.g. ~ 20’000 in Brown Swiss) which ends in a plateau, i.e. adding more SNPs will not change the proportion of genetic variance captured.de
dc.contributor.coRefereeThaller, Georg Prof. Dr.
dc.contributor.thirdRefereeKönig, Sven Prof. Dr.
dc.subject.gerGenomische Zuchtwertschätzungde
dc.subject.gerGenauigkeitde
dc.subject.gerMilchrindde
dc.subject.engGenomic Predictionde
dc.subject.engDairy Cattlede
dc.subject.engAccuracyde
dc.identifier.urnurn:nbn:de:gbv:7-11858/00-1735-0000-0022-5D61-E-1
dc.affiliation.instituteFakultät für Agrarwissenschaftende
dc.subject.gokfullLand- und Forstwirtschaft (PPN621302791)de
dc.identifier.ppn773842586


Dateien

Thumbnail

Das Dokument erscheint in:

Zur Kurzanzeige