Evaluation of Queries on Linked Distributed XML Data
Auswertung von Anfragen an verteilte, verlinkte XML Daten
by Erik Behrends
Date of Examination:2006-12-18
Date of issue:2007-01-29
Advisor:Prof. Dr. Wolfgang May
Referee:Prof. Dr. Jens Grabowski
Files in this item
Name:behrends.pdf
Size:1.42Mb
Format:PDF
Description:Dissertation
Abstract
English
XML (eXtensible Markup Language) is the de-facto standard for exchanging information and for representing data in the World Wide Web. In contrast to the document-centric perspective given by the well-known language HTML which defines the human-readable content and the layout of web pages, XML offers more flexibility and expressiveness.XML documents are not required to be self-contained but may rather have links to other XML resources. For expressing such links between XML documents, the W3C (World Wide Web Consortium) proposed XLink - but mainly for browsing purposes. If the linked documents are considered from the data-centric viewpoint, it shows that XLink does not specify how the referenced instances should be handled. Especially, it is not possible to query along links though the W3C XML Query (XQuery) Requirements explicitly state that this has to be guaranteed.In order to cope with these issues, an XLink extension "dbxlink" has been proposed. It allows for modeling interlinked XML instances as integrated views where XLinks are resolved in a transparent way. In particular, it is possible to query these instances with XPath and XQuery.In this work, the dbxlink model is described and it is investigated how to query distributed XML instances interlinked with a simple kind of XLinks according to this approach. Different strategies are analyzed and emerging problems like the handling of cyclic instances are treated. It is shown how to extend XPath-based query systems in order to be able to handle queries wrt. dbxlink. Furthermore, optimizing techniques like special caching strategies are proposed. The results of these investigations have been used to conduct a proof-of-concept implementation of the dbxlink approach as an extension to the open source XML database system eXist.
Keywords: XML; XLink; XPointer; XML Querying; XPath; XQuery
Other Languages
XML (eXtensible Markup Language) ist der de-facto Standard, um im World Wide Web Informationen auszutauschen und Daten zu repräsentieren. Im Gegensatz zu der dokumentenzentrierten Sichtweise der bekannten Sprache HTML, welche den visuell lesbaren Inhalt und das Layout von Webseiten definiert, bietet XML mehr Flexibilität und Ausdruckskraft.XML-Instanzen müssen nicht notwendigerweise in sich abgeschlossen sein, sondern können Verknüpfungen (Links) zu anderen XML-Quellen enthalten. Um solche Links zwischen XML-Dokumenten beschreiben zu können, hat das W3C (World Wide Web Consortium) XLink spezifiziert - jedoch hauptsächlich zur Anwendung im Browser. Werden die miteinander verbundenen Dokumente vom datenzentrierten Gesichtspunkt betrachtet, so zeigt sich, dass XLink nicht festlegt, wie die verknüpften Dokumente behandelt werden sollen. Insbesondere ist es nicht möglich, die Links bei Anfragen zu berücksichtigen obwohl dies explizit von den W3C XML Query (XQuery) Requirements gefordert wird.Die XLink-Erweiterung "dbxlink" wurde vorgestellt, um diese Probleme zu bewältigen. Sie ermöglicht es, durch Links verbundene XML-Instanzen als integrierte Sichten zu modellieren, in der die XLinks auf transparente Art und Weise verarbeitet werden. Dadurch ist insbesondere das Beantworten von XPath- und XQuery-Anfragen auf den miteinander verbundenen Dokumenten möglich.In dieser Arbeit wird zunächst das dbxlink-Modell beschrieben und es wird erläutert, wie Anfragen an XML-Instanzen (die durch eine einfachen Sorte von XLinks miteinander verbunden sind) mit diesem Ansatz beantwortet werden können. Verschiedene Strategien werden untersucht und dabei entstehende Probleme wie z.B. der Umgang mit zyklischen Instanzen werden behandelt. Es wird gezeigt, wie XPath-basierte Systeme erweitert werden können, um Anfragen gemäß dbxlink beantworten zu können. Weiterhin werden Methoden zur Optimierung wie z.B. spezielle Caching-Strategien vorgestellt. Die Ergebnisse dieser Untersuchungen wurden dazu genutzt, einen Konzeptnachweis in Form einer Implementierung des dbxlink Ansatzes als Erweiterung des Open-Source XML Datenbanksystems eXist durchzuführen.
Schlagwörter: XML; XLink; XPointer; XML Anfragen; XPath; XQuery