Zur Kurzanzeige

Overcoming Limitations in Biodiversity Data

Data cleaning solutions for macroecological diversity models and Drivers of the variation in the synonym numbers of angiosperm species names

dc.contributor.advisorKreft, Holger Prof. Dr.
dc.contributor.authorFührding-Potschkat, Petra
dc.date.accessioned2022-12-02T10:59:38Z
dc.date.available2022-12-09T00:50:10Z
dc.date.issued2022-12-02
dc.identifier.urihttp://resolver.sub.uni-goettingen.de/purl?ediss-11858/14384
dc.identifier.urihttp://dx.doi.org/10.53846/goediss-9565
dc.format.extent324de
dc.language.isoengde
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/
dc.subject.ddc570de
dc.titleOvercoming Limitations in Biodiversity Datade
dc.title.alternativeData cleaning solutions for macroecological diversity models and Drivers of the variation in the synonym numbers of angiosperm species namesde
dc.typedoctoralThesisde
dc.contributor.refereeKreft, Holger Prof. Dr.
dc.date.examination2022-10-13de
dc.description.abstractgerUmfangreiche Biodiversitätsdaten treiben die Erforschung der Variation und gegenseitigen Abhängigkeit zwischen lebenden Organismen voran, die das Leben erhalten. Wesentliche Aspekte dieser Daten sind die Validität der Arten und Punktvorkommen, und die Vollständigkeit und Konsistenz von Zufallsstichproben zur Vermeidung von "Bias". Ein komfortabler Weg, auf Biodiversitätsdaten zuzugreifen, sind digitale Datensätze von Specimens, die bei öffentlichen Datenanbietern gespeichert sind. Jüngste Auswertungen von Daten öffentlicher Anbieter zeigten jedoch eine uneinheitliche Qualität, die z. B. falsch identifizierte Arten, Unstimmigkeiten bei der Zuordnung von Synonymen zu ihren akzeptierten Arten, Koordinatenfehler und fehlende Werten. Daher sollte man nicht davon ausgehen, dass die Datenqualität öffentlicher Anbieter für die sofortige Nutzung geeignet ist. Meine Dissertation umfasst zwei voneinander unabhängige Studien, in denen ich taxonomische und räumliche Mängel in Biodiversitätsdaten untersuche, die ich zwei großen öffentlichen Datenanbietern abgerufen habe. I. Die Entwicklung von Datenbereinigungs (DC) Strategien und Werkzeugen zur reproduzierbaren Generierung konsistenter Daten aus Datenbeständen globaler öffentlicher Anbieter ist ein langjähriges Ziel der Biodiversitätsinformatik. Codierte Anweisungen und R-Pakete zum Abrufen, Auswerten, Formatieren und Organisieren von Daten sind Beispiele für solche Entwicklungen. Während neu programmierte und kürzlich aktualisierte, automatisierte Methoden und Werkzeuge vielversprechend sind, um die Nutzer öffentlicher Daten zu unterstützen, ist ihre Wirkung auf nachgelagerte makroökologische Diversitätsmodelle noch wenig untersucht. In Kapitel 2 stelle ich die erste quantitative Analyse vor, wie Daten, die in DC-Pipelines mit gängigen DC-Methoden und -Werkzeugen verarbeitet wurden, nachgelagerte Artenverteilungs-modelle (SDM) beeinflussten. Ich habe mich auf zwei Aspekte konzentriert. (1) untersuchte ich die Standardisierungs- und Fehlerbeseitigungsleistung von sechs DC-Pipelines unter Verwendung von 46.384 nordamerikanischen Ephedra-Aufzeichnungen, abgerufen aus der Global Biodiversity Information Facility (GBIF). (2) analysierte ich Unterschiede in den SDMs und gestapelten SDMs (S-SDMs) von Ephedra-Arten in Nordamerika (z. B. verursacht durch zurückbehaltene Fehler in den Pipeline-Daten). Um die Zuverlässigkeit der Ergebnisse zu testen, habe ich die Pipeline-Daten-SDMs mit entsprechenden Expertendaten-SDMs verglichen (Die Expertendaten repräsentierten den Goldstandard). (1) Je nach Pipeline waren etwa ein Drittel (GBIF-gefiltert) bis zwei Drittel (von R-Paketen verarbeitet) der Aufzeichnungen für Biodiversitätsanalysen ungeeignet. Während die auf R-Paketen basierenden Pipelines eine automatisierte Datenbereinigung auf standardisierte und reproduzierbare Weise boten, enthielten die GBIF-gefilterten Daten immer noch erhebliche räumliche und taxonomische Fehler. Große Nachteile ergaben sich aus der Tatsache, dass keine Pipeline vollständig die fehlbestimmten Specimen ohne die Unterstützung von taxonomischem Expertenwissen entdeckte. Diese Ergebnisse stützen die Hypothese, dass verschiedene Datenbereinigungs-lösungen unterschiedliche Datenqualitäten liefern. (2) Unterschiede in den Pipelinedaten führten nicht zu signifikanten Unterschieden in nachgelagerten SDMs und S-SDMs. Die Vorhersage, dass sich Modelle und Karten aus Daten öffentlicher Anbieter signifikant von Expertendaten unterscheiden würden, wurde jedoch durch entsprechende Korrelationen in den Modellen und Karten (unter Verwendung von Pearson's r) gestützt. II. Synonyme sind ein üblicher Bestandteil der wissenschaftlichen Weiterentwicklung in Taxonomie und Nomenklatur. Sie können aus unterschiedlichen Gründen entstehen, zum Beispiel weil Taxonomen interspezifische Variationen unterschiedlich interpretieren und klassifizieren. Synonyme können schwerwiegende taxonomische Unsicherheiten in Biodiversitäts-Repositorien verursachen (z. B. eine künstliche Erhöhung der Anzahl von Artnamen, Verwechslungen in Taxonomien, wenn es schwierig ist zu erkennen, ob der Artname ein Alias einer häufigeren Art ist). Neuere Studien haben gezeigt, dass das Synonymieniveau einiger Taxa ziemlich beträchtlich ist. In diesem Zusammenhang wurden neben dem Aufteilen und Zusammenfassen mehrere Ursachen vorgeschlagen, die zu einer Variation der Synonymzahlen führen. Beispielsweise könnten Taxonomen Präferenzen gegenüber attraktiven taxonomischen Einheiten zeigen. In Kapitel 3 stelle ich fünf Synonymietreiber vor, von denen ich angenommen habe, dass sie die nicht-nomenklaturbedingten Variation in den globalen Angiospermen-Synonymzahlen erklären. Die Treiber umfassten höhere Taxa einer Art (Familie und Gattung), die botanischen Kontinente, auf denen eine Art vorkommt, die Insellage einer Art (definiert als das Vorkommen auf Inseln, dem Festland oder beiden), die Größe des Verbreitungsgebiets einer Art und das Alter seines akzeptierten Namens. Mittels Multi-Modell-Inferenz habe ich die relative Bedeutung der Treiber unter Verwendung von Daten aus der World Checklist of Selected Plant Families (WCSP) quantifiziert (für 137.378 akzeptierte Namen von 193 Angiospermenfamilien und 5.019 Gattungen, die in 355 TDWG-Ländern und -Regionen weltweit vorkommen). Als Antwortvariable wurde in den Modellen die Synonymzahl verwendet (für "response" und "prediction"); die Synonymierate ermöglichte eine relative Rangfolge in Gruppen (z. B. für die Reihenfolge der Gattungen in Angiospermenfamilien). Ich identifizierte die Bereichsgröße, das Alter eines akzeptierten Namens und die Insellage als die Haupttreiber, die sich positiv auf die globale Variation von Synonymnummern auswirkten. Nach Berücksichtigung dieser drei Faktoren waren die verbleibenden Unterschiede in der Anzahl der botanischen Kontinente und der Wechselwirkung von Insellage und Verbreitungsgröße weniger signifikant. Das kombinierte Multi-Prädiktor-Modell erklärte etwa 41 % der globalen Variation der Angiospermen-Synonymie (96 % einschließlich der zufälligen Effekte der botanischen Kontinente, Gattungen und Familien). Zwei weitere wichtige Aspekte kristallisierten sich aus den Studien heraus. Erstens, wenn konsistente Arteninformationen kritisch und Expertendaten nicht verfügbar sind und öffentliche Biodiversitätsanbieter dafür bekannt sind, dass sie oft Daten von schlechter Qualität speichern, sollte dies die Benutzer dazu veranlassen, Daten unter ihrer Kontrolle vor der Verwendung zu verbessern. Dies geschieht jedoch in der Regel lokal bei abgerufenen Anbieterdaten. Zweitens, wenn es insbesondere auf taxonomische Genauigkeit ankommt, erfordern Daten eines öffentlichen Anbieters zusätzlichen Aufwand. In diesem Fall sollten die Biodiversitätsdaten mit Hilfe von Experten gründlich analysiert werden, da sich auch in den bereinigten Daten immer noch zweifelhafte Specimen verbergen können.de
dc.description.abstractengLarge-scale biodiversity data drive the research of the variation and interdependence among living organisms that sustain life. Taxonomic and point-occurrence validity of species, sample completeness, and consistency are essential aspects of these data. A convenient way to access biodiversity data is through digital specimen records stored with public data providers. However, recent evaluations of public provider data showed inconsistent quality derived from, e.g., misidentified species, incongruities in associating synonyms with their accepted species, coordinate errors, and missing values. Therefore, one should not assume that the quality of public provider data is suitable for immediate use. My thesis comprises two independent studies in which I examine taxonomic and spatial limitations in biodiversity data retrieved from two major public data providers. I. Developing data cleaning (DC) strategies and tools to generate consistent data from global public provider data reproducibly is a long-standing goal of biodiversity informatics. Coded instructions and R packages to retrieve, evaluate, format, and organize data are examples of such developments. While newly programmed and recently updated automated methods and tools are promising to support public data users, their effect on downstream macroecological diversity models remains poorly examined. Chapter 2 introduces the first quantitative analysis of how data processed in DC pipelines using popular DC methods and tools influenced downstream species distribution models (SDM). I focused on two aspects. (1) I examined six DC pipelines' standardization and error removal performance, using 46,384 North American Ephedra records as input from the Global Biodiversity Information Facility (GBIF). (2) I analyzed differences in the SDM and stacked SDMs (S-SDMs) of Ephedra species in North America (e.g., caused by retained errors in the pipeline data). To test the reliability of the results, I compared the pipeline data SDMs to corresponding expert data SDMs that represented the gold standard. (1) Depending on the pipeline, about one-third (GBIF-filtered) to two-thirds (R packages-processed) of the records were unsuitable for biodiversity analyses. While the R package-based pipelines offered automated data cleaning in a standardized and reproducible manner, the GBIF-filtered data still contained significant spatial and taxonomic errors. Major drawbacks emerged from the fact that no pipeline entirely discovered misidentified specimens without the assistance of expert taxonomic knowledge. These results support the hypothesis that different data cleaning solutions provide different data qualities. (2) Differences in the pipeline data did not translate into significant differences in downstream SDMs and S-SDMs. However, the prediction that models and maps from public provider data would differ significantly from expert data was supported by respective correlations in the models and maps (using Pearson's r). II. Synonyms are a common part of scientific progression in taxonomy and nomenclature. They can emerge for different reasons, for example, because taxonomists interpret and classify interspecific variations differently. Synonyms may cause severe taxonomic uncertainties in biodiversity repositories (e.g., confusing taxonomy when it is challenging to recognize whether a species' name is an alias of a more common species). Recent studies showed that some taxa's synonymy level is quite substantial. In this context, several causes, in addition to splitting and lumping, were suggested to lead to variation in synonym numbers; for example, taxonomists might show preferences toward attractive taxonomic entities. Chapter 3 presents five drivers of synonym numbers I hypothesized to account for variation in global angiosperm synonym numbers. The drivers comprised higher taxa of a species (family and genus), the botanical continents where a species is present, the insularity of a species (defined as the occurrence on islands, the mainland, or both), a species' range size, and the age of its accepted name. Using multi-model inference, I quantified the relative importance of the drivers across 137,378 accepted names of 193 angiosperm families and 5,019 genera present in 355 TDWG countries and regions worldwide using data from the World Checklist of Selected Plant Families (WCSP). The synonym number was used as the model response variable for explanations and predictions; the synonymy rate allowed for a relative ranking in groups (e.g., order of genera in angiosperm families). I identified range size, the age of an accepted name, and insularity as the core drivers that positively affected the global variation of synonym numbers. After accounting for these three factors, the residual differences in the number of botanical continents and the interaction of insularity and the range size were less significant. The combined multi-predictor model explained about 41% of the global variation in angiosperm synonymy (96%, including the random effects of the botanical continents, genera, and families). Two essential interpretations emerged from the studies. First, when consistent species information is critical, expert data unavailable, and public biodiversity providers are known for frequently storing data of poor quality, this should prompt users to improve the data within their control before use. However, this usually happens locally in a user's space using retrieved data from the providers. Second, when, in particular, taxonomic accuracy is essential, data from a public provider requires additional effort. In this case, the biodiversity data should be thoroughly analyzed with expert help since dubious specimens can still hide even in the cleaned data.de
dc.contributor.coRefereeIckert-Bond, Stefanie M. Prof. Dr.
dc.subject.engBiodiversity datade
dc.subject.engPublic data providersde
dc.subject.engData analysisde
dc.subject.engPredictor variablesde
dc.subject.engResponse variablesde
dc.subject.engStatistical modelingde
dc.identifier.urnurn:nbn:de:gbv:7-ediss-14384-9
dc.affiliation.instituteFakultät für Forstwissenschaften und Waldökologiede
dc.subject.gokfullForstwirtschaft (PPN621305413)de
dc.description.embargoed2022-12-09de
dc.identifier.ppn1826746412
dc.creator.birthnameFührdingde
dc.identifier.orcid0000-0003-2838-9874de
dc.notes.confirmationsentConfirmation sent 2022-12-02T11:15:01de


Dateien

Thumbnail

Das Dokument erscheint in:

Zur Kurzanzeige