Zur Kurzanzeige

Measuring metadata quality

dc.contributor.advisorLauer, Gerhard Prof. Dr.
dc.contributor.authorKirály, Péter
dc.date.accessioned2019-07-26T10:23:36Z
dc.date.available2019-07-26T10:23:36Z
dc.date.issued2019-07-26
dc.identifier.urihttp://hdl.handle.net/21.11130/00-1735-0000-0003-C17C-8
dc.identifier.urihttp://dx.doi.org/10.53846/goediss-7578
dc.language.isoengde
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject.ddc000de
dc.titleMeasuring metadata qualityde
dc.typedoctoralThesisde
dc.contributor.refereeLauer, Gerhard Prof. Dr.
dc.date.examination2019-06-24
dc.description.abstractgerIn den letzten 15 Jahren wurden verschiedene Aspekte von Metadatenqualität untersucht. In verschiedenen Metadatenkollektionen haben Wissenschaftler und Wissenschaftlerinnen Messwerte für etablierte Kennzahlen erfasst. Gemeinsam ist diesen Forschungsprojekten, dass die für die Messungen benötigten Werkzeuge häufig nicht darauf ausgelegt sind in anderen Projekten wiederverwendet zu werden. Die vorliegende Arbeit beschäftigt sich hauptsächlich mit der speziellen Metadatenkollektion von Europeana und untersucht dabei die praktischen Aspekte von Kriterien zur Messung von Metadatenqualität, wie Wiederverwendung, Reproduzierbarkeit, Skalierbarkeit und Anpassungsfähigkeit. Europeana.eu, die europäische digitale Plattform für kulturelles Erbe, sammelt Metadaten von 58 Millionen kulturellen Objekten, die aus mehr als 3200 Bibliotheken, Museen, Archiven und audiovisuellen Archiven in Europa stammen. Diese Sammlung ist heterogen und besteht aus Objekten in verschiedenen Formaten und Sprachen, deren Beschreibungen durch unterschiedliche Indexierungspraktiken entstanden sind. Oft wurden die Objekte aus ihrem ursprünglichen Kontext genommen. Um nun Dienstleistungen zu entwickeln, mit denen die Daten zugänglich gemacht und genutzt werden können, muss man die Stärken und Schwächen oder anders ausgedrückt die Qualität der Daten kennen. Der Bedarf an qualitativ hochwertigen Daten ist durch deren Ein uss auf die Nutzererfahrung, das Information Retrieval und die Wiederverwendung von Daten in anderen Zusammenhängen motiviert. Im zweiten Kapitel schlägt der Autor eine Methode sowie eine Open Source Lösung vor, um strukturelle Eigenschaften von Daten, wie Vollständigkeit, Multilingualität und Eindeutigkeit, zu messen. Eine weitere Komponente, um Probleme in Daten aufzudecken, ist die Analyse und Veranschaulichung von Dokumentstrukturen. Ein zentrales Anliegen von Europeana ist es, Nutzern und Nutzerinnen die Möglichkeit zu bieten Kulturgüter unabhängig ihrer Herkunft und Sprache, in der sie beschrieben sind, zu finden. Für ein erfolgreiches sprachübergreifendes Retrieval sind mehrsprachige Metadatenbeschreibungen unerlässlich. Eine Voraussetzung um überhaupt die Metadatenqualität in verschiedenen Sprachen verbessern zu können, ist die quantitative Bestimmung der sprachlichen Vielfalt der Metadaten in Europeana. Um die Mehrsprachigkeit in den Daten erfassen zu können, müssen der komplette Prozess der Datenaggregation abgebildet und auch Prozesse zur Datenverbesserung, wie beispielsweise automatische Datenanreicherungen, berücksichtigt werden. In Kapitel 3 präsentiert der Autor eine Methode, die er zusammen mit Mitgliedern des Europeana Data Quality Committees entwickelt hat, um Mehrsprachigkeit als Aspekt verschiedener Dimensionen von Datenqualität, wie Vollständigkeit, Konsistenz, Konformität und Zugänglichkeit, messen zu können. Das nächste Kapitel (Kapitel 4) geht darauf ein, wie das oben beschriebene Konzept skalierbar umgesetzt werden kann und beschreibt die Methode und die Ergebnisse der Validierung von 16 Bibliothekskatalogen. Die Katalogdatensätze liegen in einem maschinenlesbaren Format (MARC21) vor, dem am weitesten verbreiteten Metadatenstandard zur Beschreibung von bibliographischen Einheiten. Die vorliegende Untersuchung ermittelt strukturelle Merkmale der Datensätze und klassifiziert die in diesen häufig auftretenden Probleme. Die häufigsten Probleme sind die Verwendung von undokumentierten Schema-Elementen, falsche Werte an Stellen, an denen ein Wert aus einem kontrollierten Vokabular hätte übernommen werden sollen oder die Missachtung anderer strenger Vorgaben. Die nächsten Kapitel beschreiben die technischen Aspekte der Forschung. In Kapitel 5 wird ein kurzer überblick über den Aufbau des erweiterbaren Framework zur Messung von Metadatenqualität gegeben. Dieser unterstützt verschiedene Metadatenschemata und ist exibel genug, um mit neuen Schemata umgehen zu können. Diese Anwendung muss skalierbar sein, um eine große Anzahl von Metadatensätzen innerhalb einer angemessenen Zeit verarbeiten zu können. Grundlegende Anforderungen, die bei der Entwicklung einer solchen Software berücksichtigt werden müssen, sind i) die Abstraktion des Metadatenschemas (im Rahmen des Messprozesses), ii) der Umgang mit unterschiedlichen Teilen innerhalb von Metadatensätzen, iii) der Messprozess, iv) eine gemeinsame und leistungsfähige Schnittstelle für die einzelnen Metriken und v) die Interoperabilität mit Java- und REST-APIs. In Kapitel 6 wird untersucht welche optimalen Parametereinstellungen für einen lang laufenden Prozess, basierend auf dem Apache Spark Stand-Alone-Modus, nötig sind. Dafür werden die Auswirkungen von vier verschiedenen Parametern gemessen und das Verhalten der Anwendung auf zwei verschiedenen Servern verglichen. Die wichtigste Erkenntnis aus diesem Experiment ist, dass die Zuweisung von mehr Ressourcen nicht unbedingt eine bessere Leistung bedeutet. In einem Umfeld mit begrenzten und geteilten Ressourcen brauchen wir einen Zustand, der "gut genug" ist und anderen Prozessen den Vortritt lässt. Um die optimalen Einstellungen zu finden und die Performance mit verschiedenen Parametern zu messen, sollte ein kleineres Sample herangezogen werden, das in wichtigen Merkmalen dem vollständigen Datensatz ähnelt. Die Einstellungen, die überprüft werden sollten, sind die Anzahl der Rechenkerne, die Speicherzuweisung, die Kompression der Quelldateien und (falls vorhanden) das Auslesen verschiedener Dateisysteme. Als Grundlage der Bewertung können das Standard Spark-Logging sowie das Event-Logging oder Messpunkte innerhalb der Anwendung verwendet werden. Das letzte Kapitel (Kapitel 7) erläutert Zukunftspläne, die Anwendbarkeit der Methode auf andere Bereiche wie Wikicite (die offene Datenbank für Zitationsdaten von Wikidata) und Forschungsdaten, sowie Forschungskooperationen mit verschiedenen Kulturerbeinstitutionen.de
dc.description.abstractengIn the last 15 years different aspects of metadata quality have been investigated. Researchers measured the established metrics on a variety of metadata collections. One common aspect of the majority of these research projects is that the tools they produce as a necessary side effect were not intended to be reused in other projects. This research, while focusing mainly on a specific metadata collection, Europeana, investigates practical aspects of metadata quality measurement such as reusability, reproducability, scalability and adaptability. Europeana.eu - the European digital platform for cultural heritage - aggregates metadata describing 58 million cultural heritage objects from more than 3200 libraries, museums, archives and audiovisual archives across Europe. The collection is heterogeneous with objects in different formats and languages and descriptions that are formed by different indexing practices. Often these records are also taken from their original context. In order to develop effective services for accessing and using the data we should know their strengths and weaknesses or in other words the quality of these data. The need for metadata quality is particularly motivated by its impact on user experience, information retrieval and data re-use in other contexts. In Chapter 2 the author proposes a method and an open source implementation to measure some structural features of these data, such as completeness, multilinguality and uniqueness. The investigation and exposure of record patterns is another aspect to reveal quality issues. One of the key goals of Europeana is to enable users to retrieve cultural heritage resources irrespective of their origin and the material's metadata language. The presence of multilingual metadata descriptions is therefore essential for successful cross-language retrieval. Quantitatively determining Europeana's crosslingual reach is a prerequisite for enhancing the quality of metadata in various languages. Capturing multilingual aspects of the data requires us to take data aggregation lifecycle into account including data enhancement processes such as automatic data enrichment. In Chapter 3 the author presents an approach developed together with some members of Europeana Data Quality Committee for assessing multilinguality as part of data quality dimensions, namely completeness, consistency, conformity and accessibility. The chapter describes the defined and implemented measures, and provides initial results and recommendations. The next chapter (Chapter 4) { investigating the applicability of the above mentioned approach { describes the method and results of validation of 16 library catalogues. The format of the catalog record is Machine Readable Cataloging (MARC21) which is the most popular metadata standard for describing books. The research investigates the structural features of the record and as a result finds and classifies different commonly found issues. The most frequent issues are usage of undocumented schema elements, improper values instead of using terms from controlled vocabulary, or the failure to meet other strict requirements. The next chapters describe the engineering aspects of the research. First (Chapter 5), a short account of the structure of an extensible metadata quality assessment framework is given, which supports multiple metadata schemas, and is flexible enough to work with new schemas. The software has to be scalable to be able to process huge amount of metadata records within a reasonable time. Fundamental requirements that need to be considered during the design of such a software are i) the abstraction of the metadata schema (in the context of the measurement process), ii) how to address distinct parts within metadata records, iii) the work ow of the measurement, iv) a common and powerful interface for the individual metrics, and v) interoperability with Java and REST APIs. Second (Chapter 6), is an investigation of the optimal parameter settings for a long running, standalone mode Apache Spark based, stateless process. It measures the effects of four different parameters and compares the application's behaviour in two different servers. The most important lessons learned in this experiment is that allocating more resources does not necessary imply better performance. Moreover, what we really need in an environment with limited and shared resources is a `good enough' state which respectfully let other processes run. To find the optimal settings, it is suggested to pick up a smaller sample, which is similar to the full dataset in important features, and measure performance with different settings. The settings worth to check are number of cores, memory allocation, compression of the source files, and reading from different file systems (if they are available). As a source of ground truth Spark's default log, Spark event log, or measuring points inside the application can be used. The final chapter explains future plans, the applicability of the method to other subdomains, such as Wikicite (the open citation data collection of Wikidata) and research data, and research collaborations with different cultural heritage institutions.de
dc.contributor.coRefereeBüchler, Marco Dr.
dc.contributor.thirdRefereeYahyapour, Ramin Prof. Dr.
dc.subject.engmetadatade
dc.subject.engcultural heritagede
dc.subject.engdata sciencede
dc.subject.engBig Datade
dc.identifier.urnurn:nbn:de:gbv:7-21.11130/00-1735-0000-0003-C17C-8-7
dc.affiliation.instituteSozialwissenschaftliche Fakultätde
dc.identifier.ppn1672307007


Dateien

Thumbnail

Das Dokument erscheint in:

Zur Kurzanzeige