Modeling and Querying of Distributed XML Data in Presence of 3rd Party Links
Datenmodelle und Anfrageauswertung für verteilte XML-Daten mit 3rd-Party-Links
by Oliver Fritzen
Date of Examination:2008-01-15
Date of issue:2008-02-12
Advisor:Prof. Dr. Wolfgang May
Referee:Prof. Dr. Wolfgang May
Referee:Prof. Dr. Kai-Uwe Sattler
Files in this item
Name:fritzen.pdf
Size:1.31Mb
Format:PDF
Description:Dissertation
Abstract
English
XML (short for eXtensible Markup Language) is a meta-language for the representation of digital data. XML has had an enormous impact on modern computer science and IT industry since its advent in 1997, for several reasons: XML is simple and easily accessible. Using Unicode as encoding, XML can be viewed and authored/edited with common text editors, and due to the context-free and well-formed structure of XML document types, it is easy to provide efficient parsers for processing XML documents. Also, XML"s concept of definable document types enables for a structured representation of almost arbitrary digital data, with the document type modeling the domain of the data, which makes XML a very powerful and flexible standard for data representation, particularly regarding the Web. The XLink standard is an extension to XML for defining references between XML documents, inspired by the hyperlink concept from hypertext. XLink defines two types of links: Simple Links are unidirectional links from one document to another, similar to HTML hyperlinks. Extended Links create graph-based relationships (arcs) between portions of XML (resources) over multiple XML documents. Within the LinXIS project, models and query evaluation for XLink have been investigated: in a logical data model, a Simple Link is given the semantics of an embedded view that "imports" the referenced data from a remote document into the link-defining document. The participating XML data, together with the Simple Links define a virtual instance (a single-document view on the distributed data) according to the logical data model. Extended Links define relations between XML resources, but in contrast to Simple Links, they are not defined inside the participating resources but apart of them. This allows to define a semantics for Extended Links, with an Extended Link defining views that combine and extend the participating resources from a 3rd party perspective, without need for write access to them, and thus extending the Simple Links logical data model. The above described logical data model provides a semantics for the evaluation of XPath queries over distributed XML data: A query may be evaluated not on a (physical) XML document, but on the virtual instance defined by the given Simple and Extended Links. The query evaluation may "follow" along a Simple Link, continuing the evaluation process on the referenced, physically remote data. For Extended Links, queries can be evaluated on the integrated view combining the sources referenced by an Extended Link, based on the 3rd party semantics of the link. A previous PhD thesis, which also emerged from the LinXIS project, introduced the data model for Simple Links and investigated techniques and algorithms for XPath query evaluation on the linked XML data. As part of the work, the data model was implemented on base of the Open Source XML database system eXist, thus creating a Simple-Link-enhanced XML database prototype. The present work extends the focus from Simple to Extended Links: The work includes a formal description of both Simple Link and Extended Link semantics, based on a specification as an abstract data type (ADT), and providing Extended Links with a 3rd Party Link semantics. Also, the basic concepts for query evaluation with respect to 3rd Party Links are investigated. The algorithms as well as the logical data model for 3rd Party Links are implemented by further enhancement of the eXist-based prototype, providing the query evaluation unit with that semantics. The prototype is tested within a case study, evaluating the prototype"s functional behavior and performance. The case study is followed by a discussion of the proposed 3rd Party Link approach, addressing its applicability in terms of its design, performance and its relevance within a rapidly evolving Web infrastructure. The work is completed by a conclusion addressing the previously discussed issues, and giving an overview over related research as well as over perspectives and further work.Other Languages
XML (für eXtended Markup Language) ist
eine Metasprache zur Darstellung digitaler Daten, die seit ihrer
Standardisierung 1997 in kurzer Zeit extrem populär geworden ist,
sowohl im akademischen als auch im industriellen Anwendungskontext.
Dafür gibt es eine Anzahl von Gründen: XML hat eine niedrige
Einstiegsschwelle in Bezug auf die notwendige Tool-Infrastruktur
und Lesbarkeit durch Menschen, da XML Unicode als Darstellungsform
benutzt und mit üblichen Texteditoren geschrieben und gelesen
werden kann. Ausserdem ist die kontextfreie Grammatik eines
Dokumenttyps zusammen mit der strikten Serialisierungsvorschrift
der Wohlgeformtheit effizient mit Parsern verarbeitbar. Darüber
hinaus bietet das Konzept der frei definierbaren Dokumenttypen die
Möglichkeit, nahezu beliebige Daten strukturiert darzustellen und
über die Grenzen vonPlattformen, Softwareinfrastrukturen oder
bestimmter Formate hinweg auszutauschen, insbesondere über das Web.
XLink ist eine vom World Wide Web Consortium standardisierte Syntax
um XML-Dokumente mit einer Hyperlink-Funktionalität auszustatten.
XLink definiert zwei Arten von Links: Simple Links sind
unidirektionale Verbindungen von einem Dokument in ein anderes,
vergleichbar mit dem HTML-Hyperlink. Die komplexeren Extended Links
verknüpfen Resourcen innerhalb verschiedener XML-Dokumente
miteinander durch gerichtete Graphstrukturen (arcs). Der XLink
-Standard definiert für solche Links lediglich eine Syntax ;eine
Semantik bekommt ein Link erst im Kontext einer Anwendung wie der
Anfragesprache XQuery oder der Transformationssprache XSL. Für
beide existiert allerdings keine - zumindest keine standardisierte
- XLink-Semantik. Im Rahmen des Forschungsprojektes LinXIS sind
Modelle und die Auswertung von Anfragen in Bezug auf XLink
untersucht worden: Man kann einen Simple Link als Definition einer
eingebetteten Sicht betrachten, die Daten aus einem referenzierten
Dokument in das einbettende Dokument einbindet. Die beteiligten -
physischen - Dokumente und die Simple Links werden durch diese
Link-Semantik zu einer einzigen virtuellen Instanz verschmolzen;
die Link-Semantik definiert also ein logisches Datenmodell.
Extended Links repräsentieren Beziehungen zwischen XML-Resourcen,
nur sind Extended Links nicht wie Simple Links im einbettenden
Dokument definiert, sondern unabhängig von den referenzierten
Resourcen in einem eigenen Dokument. So ist es möglich, von dritter
Seite aus Sichten über mehrere beteiligte XML-Dokumente zu
beschreiben, ohne auf die Dokumente selber Schreibrechte haben zu
müssen. Das logische Datenmodell für Simple Links wird also
erweitert auf Extended Links, denen so eine 3rd-Party-Link-Semantik
zugeeignet wird. Das oben beschriebene logische Datenmodell liefert
eine Semantik zur Auswertung von XPath-Anfragen über räumlich
verteilte, mit XLink verknüpfte XML-Daten: Anfragen werden nicht
auf dem physischen Datenmodell des angefragten Dokumentes, sondern
auf der zugehörigen, durch die beteiligten Dokumente und Links
definierten virtuellen Instanz ausgewertet. Die Auswertung "läuft"
entlang eines Simple Links in ein anderes Dokument und wird dort
fortgesetzt. Ebenso können Anfragen auf einer integrierten Sicht
ausgewertet werden, die durch Extended Links mit 3rd-Party-Semantik
definiert wird. In einer früheren, im Rahmen von LinXIS
entstandenen Dissertation wurde ein Datenmodell für Simple Links
beschrieben und Verfahren und Algorithmen zur Auswertung von
XPath-Anfragen auf diesem Datenmodell untersucht. Als Teil der
Arbeit entstand eine Implementierung des Datenmodells auf Basis des
Open-Source-XML-Datenbanksystems eXist, so dass der dadurch
entstandene Prototyp in der Lage ist, Anfragen auf mit Simple Links
verknüpften Daten gemäß dem Datenmodell auszuwerten. In der
vorliegenden Arbeit wird der Fokus auf Extended Links erweitert:
Teil der Arbeit ist eine formale Beschreibung eines gemeinsamen
Datenmodells für Simple Links und Extended Links (letztere versehen
mit 3rd-Party-Link-Semantik), spezifiziert in Form eines abstrakten
Datentypen (ADT). Darüber hinaus werden grundlegende Aspekte der
Anfrageauswertung in Bezug auf die 3rd-Party-LinkSemantik
untersucht. Die beschriebenen Techniken und Algorithmen die das
obige logische Datenmodell implementieren, werden prototypisch
umgesetzt. Dazu wird der bereits vorhandene Simple-Link-fähige,
eXist-basierte Prototyp weiterentwickelt. Der so entstandene neue
Prototyp wird in einer Fallstudie auf Funktion und Leistung hin
untersucht. Anschliessend wird der gesamte 3rd-Party-Link-Ansatz
kritisch diskutiert in Bezug auf Design, Leistungsfähigkeit und
Relevanz im Kontext einer sich kontinuierlich verändernden
Web-Infrastruktur. Schliesslich wird diese Diskussion in einem
Fazit abschliessend bewertet. Hier wir auch ein zusammenfassender
Überblick über andere Arbeiten auf dem Gebiet sowie über
Perspektiven zur Weiterentwicklung und Umsetzung gegeben.