Modification Analysis in Historical Paraphrastical Parallel Text

Berger, Maria

An Empirical Work on Stable and Changing Elements in Historical Text Reuse

von Maria Berger

Dissertation

Datum der mündl. Prüfung:2019-05-02

Erschienen:2019-10-08

Betreuer:Dr. Marco Büchler

Gutachter:Dr. Marco Büchler

Gutachter:Prof. Dr. Caroline Sporleder

Zum Verlinken/Zitieren: http://dx.doi.org/10.53846/goediss-7663

Dateien

Name:thesis1.pdf

Size:1.79Mb

Format:PDF

ViewOpen

Lizenzbestimmungen:

Zusammenfassung

Englisch

Clarifying the genesis of a passed down text is of outmost importance for many scholarly disciplines within the humanities such as history, literary studies, and Bible studies. The computational detection of such passed down texts in the form of historical text reuse, including citations, quotations or allusions, unintended reuse of a saying, or even of cross-linguistic reuse in the form of translations, can be applied in many respects. It can help tracing down historical content (a.k.a., lines of transmission), which is essential to the field of textual criticism. In modern literature it can help assigning text to authors. In the context of massive digitization projects, it can identify relationships between text excerpts referring to the same source. Specifically, detecting copies of the same historical text that have diverged over time is an important task. While detecting reuse in contemporary languages is well-understood|given the existence of extensive research, techniques, and corpora, automatically detecting historical text reuse is much more difficult. Corpora of historical languages often encompass various genres, linguistic varieties, and topics. In fact, the automated detection of historical text reuse is much less understood, requiring empirical work to improve its automation. Especially, the analysis of text reuse by quantitative methods is crucial to understand reuse in detail. This work presents a technique for describing text reuse modi cation on a finegrained level and collects empirical data based on the application of the technique to several datasets and use cases. In detail, this work presents a linguistic analysis of text reuse in two medieval datasets. In a more comprehensive analysis, it investigates modifications in a monolingual parallel corpus of English Bible translations and a parallel Corpus of German Bible translations. We design and implement an automated technique to analyze how a source text is modified compared to its reuse/parallel version, taking linguistic resources into account to understand how they help characterizing the transformation. Precisely, an operation set is designed considering operations based on morphological cognates and lexicon-based operations based on semantic relations to find a mapping between a source text and its reused/parallel version and apply it on top of a statistical alignment output to learn how precisely and to what extent text is modified. The work is complemented by a manual analysis of subsets of the medieval reuse datasets, and a manual evaluation of the alignment precision on subsets of the English Bible Corpus. The results show the lack of resources for ancient texts, while lexical database for modern languages are widely available and can partially enhance the technique presented in this work. However, especially for a sufficiently preprocessed historical English text, linguistic resources can effectively support understanding the paraphrastical text reuse modification process. These results can support practitioners and researchers working on detecting historical reuse.

Keywords: modification analysis; historical language; paraphrastical text; text reuse; non-literal text reuse; synset databases

Deutsch

Die Klärung der Entstehung eines überlieferten Textes ist für viele geisteswissen-schaftliche Disziplinen wie beispielsweise der Geschichte, Literaturwissenschaft oder Bibelwissenschaft von größter Bedeutung. Die automatische Erkennung solcher überlieferten Texte in Form historischen Text Reuses---dies beinhaltet Zitationen, Zitate oder auch Andeutungen, sowie unbeabsichtigten Reuse eines Sprichworts oder sogar Fälle von sprachübergreifendem Reuse in Form von Übersetzungen---kann in vielerlei Hinsicht nützlich sein. Sie kann dabei helfen, historische Inhalte aufzuspüren, was zum Beispiel für das Forschungsgebiet der Textkritik von wesen-tlicher Bedeutung ist. In der modernen Literatur kann die Text-Reuse-Erkennung aber auch hilfreich sein, um Text Autoren zuzuordnen. Im Rahmen massiver Digitalisierungsprojekte können Beziehungen zwischen Textausschnitten identifiziert werden, die sich auf ein und dieselbe Quelle beziehen. Insbesondere das Erkennen von Kopien desselben historischen Textes, die im Laufe der Zeit voneinander abgewichen sind, ist eine wichtige Aufgabe der Text-Reuse-Erkennung. Während der Erkennung von Text Reuse in modernen Sprachen viel Aufmerksamkeint entgegen gebracht wird, und Studien aufgrund reichlich existierender Technologien und Text Korpora erleichtert werden, ist die automatische Erkennung von historischem Text Reuse viel schwieriger. Korpora historischer Sprachen umfassen oft verschiedene Gattungen, sprachliche Variationen und Themen. Tatsächlich ist die automatische Erkennung von Text Reuse in historischen Texten viel weniger bekannt, und empirische Studien sind notwendig um dessen Automatisierung zu ermöglichen und zu verbessern. Zu diesem Zweck ist die Analyse von Text Reuse mittels quantitativer Methoden unumgänglich. Dies hilft die Einzelheiten des Text Reuse zu verstehen, um schließlich exitierende Methoden zur Text Reuse Erkennung zu verbessern. Diese Arbeit präsentiert eine Technik zur Beschreibung fein-granularer Veränder-ung von Text Reuse und erhebt empirische Daten, die auf der Andwendung dieser Technik auf verschiedenen Datensätzen und Use-Cases basieren. Im Detail präsentiert diese Arbeit eine sprachliche Analyse von Reuse in zwei kleineren Datensätzen mittelalterlichen Griechischs und Lateins. In einer umfassenderen Analyse wird Wortveränderung und -Ersetzung in einem parallelen Korpus englischer Bibelüber-setzungen und einem parallelen Korpus deutscher Bibelübersetzungen untersucht. Es wird ein automatisierte Ansatz entworfen und implementiert, der hilft zu analy-sieren wie ein Quelltext im Vergleich zu seinem Reuse beziehungsweise seiner parallelen Version verändert wurde. Dabei werden sprachlichen Ressourcen berücksichtigt, um zu verstehen was die Transformation charakterisiert. Es werden Operationen defininert, die auf morphologischen Veränderungen basieren, sowie Operationen, die auf semantischen Beziehungen basieren, um eine Zuordnung zwischen einem Quelltext und seiner wiederverwendeten Version zu finden. Diese Operationen werden im Nachgang eines statistischen Ansatzes zwischen potentiellen Wortpaaren modeliert. Dadurch werden Einsichten dazu erlangt, wie genau Text verändert wird. Ergänzt wird diese Arbeit durch eine manuelle Analyse von Teildatenbsätzen der mittelalterlichen Texte sowie einer manuellen Beurteilung der Alignmentgenauigkeit auf einem Teildatensatz des englischen Bibelkorpuses. Die Ergebnisse zeigen den Mangel an Ressourcen für antike Texte, während lexikalische Datenbanken für moderne Sprachen reichlich vorhanden sind. Insbesondere für einen ausreichend vorverarbeiteten historischen englischen Text können Sprachressourcen jedoch das Verständnis des Modifikationsprozesses für paraphrastischen Text Reuse unterstützen. Diese Ergebnisse können Praktikern und Forschern dabei helfen die Erkennung historischen Text Reuses voranzutreiben.

Statistik