dc.contributor.advisor | May, Wolfgang Prof. Dr. | de |
dc.contributor.author | Fritzen, Oliver | de |
dc.date.accessioned | 2013-01-31T07:59:45Z | de |
dc.date.available | 2013-01-31T07:59:45Z | de |
dc.date.issued | 2008-02-12 | de |
dc.identifier.uri | http://hdl.handle.net/11858/00-1735-0000-000D-F237-1 | de |
dc.identifier.uri | http://dx.doi.org/10.53846/goediss-3620 | |
dc.description.abstract | XML (für eXtended Markup Language) ist
eine Metasprache zur Darstellung digitaler Daten, die seit ihrer
Standardisierung 1997 in kurzer Zeit extrem populär geworden ist,
sowohl im akademischen als auch im industriellen Anwendungskontext.
Dafür gibt es eine Anzahl von Gründen: XML hat eine niedrige
Einstiegsschwelle in Bezug auf die notwendige Tool-Infrastruktur
und Lesbarkeit durch Menschen, da XML Unicode als Darstellungsform
benutzt und mit üblichen Texteditoren geschrieben und gelesen
werden kann. Ausserdem ist die kontextfreie Grammatik eines
Dokumenttyps zusammen mit der strikten Serialisierungsvorschrift
der Wohlgeformtheit effizient mit Parsern verarbeitbar. Darüber
hinaus bietet das Konzept der frei definierbaren Dokumenttypen die
Möglichkeit, nahezu beliebige Daten strukturiert darzustellen und
über die Grenzen vonPlattformen, Softwareinfrastrukturen oder
bestimmter Formate hinweg auszutauschen, insbesondere über das Web.
XLink ist eine vom World Wide Web Consortium standardisierte Syntax
um XML-Dokumente mit einer Hyperlink-Funktionalität auszustatten.
XLink definiert zwei Arten von Links: Simple Links sind
unidirektionale Verbindungen von einem Dokument in ein anderes,
vergleichbar mit dem HTML-Hyperlink. Die komplexeren Extended Links
verknüpfen Resourcen innerhalb verschiedener XML-Dokumente
miteinander durch gerichtete Graphstrukturen (arcs). Der XLink
-Standard definiert für solche Links lediglich eine Syntax ;eine
Semantik bekommt ein Link erst im Kontext einer Anwendung wie der
Anfragesprache XQuery oder der Transformationssprache XSL. Für
beide existiert allerdings keine - zumindest keine standardisierte
- XLink-Semantik. Im Rahmen des Forschungsprojektes LinXIS sind
Modelle und die Auswertung von Anfragen in Bezug auf XLink
untersucht worden: Man kann einen Simple Link als Definition einer
eingebetteten Sicht betrachten, die Daten aus einem referenzierten
Dokument in das einbettende Dokument einbindet. Die beteiligten -
physischen - Dokumente und die Simple Links werden durch diese
Link-Semantik zu einer einzigen virtuellen Instanz verschmolzen;
die Link-Semantik definiert also ein logisches Datenmodell.
Extended Links repräsentieren Beziehungen zwischen XML-Resourcen,
nur sind Extended Links nicht wie Simple Links im einbettenden
Dokument definiert, sondern unabhängig von den referenzierten
Resourcen in einem eigenen Dokument. So ist es möglich, von dritter
Seite aus Sichten über mehrere beteiligte XML-Dokumente zu
beschreiben, ohne auf die Dokumente selber Schreibrechte haben zu
müssen. Das logische Datenmodell für Simple Links wird also
erweitert auf Extended Links, denen so eine 3rd-Party-Link-Semantik
zugeeignet wird. Das oben beschriebene logische Datenmodell liefert
eine Semantik zur Auswertung von XPath-Anfragen über räumlich
verteilte, mit XLink verknüpfte XML-Daten: Anfragen werden nicht
auf dem physischen Datenmodell des angefragten Dokumentes, sondern
auf der zugehörigen, durch die beteiligten Dokumente und Links
definierten virtuellen Instanz ausgewertet. Die Auswertung "läuft"
entlang eines Simple Links in ein anderes Dokument und wird dort
fortgesetzt. Ebenso können Anfragen auf einer integrierten Sicht
ausgewertet werden, die durch Extended Links mit 3rd-Party-Semantik
definiert wird. In einer früheren, im Rahmen von LinXIS
entstandenen Dissertation wurde ein Datenmodell für Simple Links
beschrieben und Verfahren und Algorithmen zur Auswertung von
XPath-Anfragen auf diesem Datenmodell untersucht. Als Teil der
Arbeit entstand eine Implementierung des Datenmodells auf Basis des
Open-Source-XML-Datenbanksystems eXist, so dass der dadurch
entstandene Prototyp in der Lage ist, Anfragen auf mit Simple Links
verknüpften Daten gemäß dem Datenmodell auszuwerten. In der
vorliegenden Arbeit wird der Fokus auf Extended Links erweitert:
Teil der Arbeit ist eine formale Beschreibung eines gemeinsamen
Datenmodells für Simple Links und Extended Links (letztere versehen
mit 3rd-Party-Link-Semantik), spezifiziert in Form eines abstrakten
Datentypen (ADT). Darüber hinaus werden grundlegende Aspekte der
Anfrageauswertung in Bezug auf die 3rd-Party-LinkSemantik
untersucht. Die beschriebenen Techniken und Algorithmen die das
obige logische Datenmodell implementieren, werden prototypisch
umgesetzt. Dazu wird der bereits vorhandene Simple-Link-fähige,
eXist-basierte Prototyp weiterentwickelt. Der so entstandene neue
Prototyp wird in einer Fallstudie auf Funktion und Leistung hin
untersucht. Anschliessend wird der gesamte 3rd-Party-Link-Ansatz
kritisch diskutiert in Bezug auf Design, Leistungsfähigkeit und
Relevanz im Kontext einer sich kontinuierlich verändernden
Web-Infrastruktur. Schliesslich wird diese Diskussion in einem
Fazit abschliessend bewertet. Hier wir auch ein zusammenfassender
Überblick über andere Arbeiten auf dem Gebiet sowie über
Perspektiven zur Weiterentwicklung und Umsetzung gegeben. | de |
dc.format.mimetype | application/pdf | de |
dc.language.iso | eng | de |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/ | de |
dc.title | Modeling and Querying of Distributed XML Data in Presence of 3rd Party Links | de |
dc.type | doctoralThesis | de |
dc.title.translated | Datenmodelle und Anfrageauswertung für verteilte XML-Daten mit 3rd-Party-Links | de |
dc.contributor.referee | May, Wolfgang Prof. Dr. | de |
dc.date.examination | 2008-01-15 | de |
dc.subject.dnb | 004 Informatik | de |
dc.subject.gok | AHH 210 | de |
dc.subject.gok | AHH 220 | de |
dc.subject.gok | AHH 230 | de |
dc.subject.gok | AHH 250 | de |
dc.description.abstracteng | XML (short for eXtensible Markup Language)
is a meta-language for the representation of digital data. XML has
had an enormous impact on modern computer science and IT industry
since its advent in 1997, for several reasons: XML is simple and
easily accessible. Using Unicode as encoding, XML can be viewed and
authored/edited with common text editors, and due to the
context-free and well-formed structure of XML document types, it is
easy to provide efficient parsers for processing XML documents.
Also, XML"s concept of definable document types enables for a
structured representation of almost arbitrary digital data, with
the document type modeling the domain of the data, which makes XML
a very powerful and flexible standard for data representation,
particularly regarding the Web. The XLink standard is an extension
to XML for defining references between XML documents, inspired by
the hyperlink concept from hypertext. XLink defines two types of
links: Simple Links are unidirectional links from one document to
another, similar to HTML hyperlinks. Extended Links create
graph-based relationships (arcs) between portions of XML
(resources) over multiple XML documents. Within the LinXIS project,
models and query evaluation for XLink have been investigated: in a
logical data model, a Simple Link is given the semantics of an
embedded view that "imports" the referenced data from a remote
document into the link-defining document. The participating XML
data, together with the Simple Links define a virtual instance (a
single-document view on the distributed data) according to the
logical data model. Extended Links define relations between XML
resources, but in contrast to Simple Links, they are not defined
inside the participating resources but apart of them. This allows
to define a semantics for Extended Links, with an Extended Link
defining views that combine and extend the participating resources
from a 3rd party perspective, without need for write access to
them, and thus extending the Simple Links logical data model. The
above described logical data model provides a semantics for the
evaluation of XPath queries over distributed XML data: A query may
be evaluated not on a (physical) XML document, but on the virtual
instance defined by the given Simple and Extended Links. The query
evaluation may "follow" along a Simple Link, continuing the
evaluation process on the referenced, physically remote data. For
Extended Links, queries can be evaluated on the integrated view
combining the sources referenced by an Extended Link, based on the
3rd party semantics of the link. A previous PhD thesis, which also
emerged from the LinXIS project, introduced the data model for
Simple Links and investigated techniques and algorithms for XPath
query evaluation on the linked XML data. As part of the work, the
data model was implemented on base of the Open Source XML database
system eXist, thus creating a Simple-Link-enhanced XML database
prototype. The present work extends the focus from Simple to
Extended Links: The work includes a formal description of both
Simple Link and Extended Link semantics, based on a specification
as an abstract data type (ADT), and providing Extended Links with a
3rd Party Link semantics. Also, the basic concepts for query
evaluation with respect to 3rd Party Links are investigated. The
algorithms as well as the logical data model for 3rd Party Links
are implemented by further enhancement of the eXist-based
prototype, providing the query evaluation unit with that semantics.
The prototype is tested within a case study, evaluating the
prototype"s functional behavior and performance. The case study is
followed by a discussion of the proposed 3rd Party Link approach,
addressing its applicability in terms of its design, performance
and its relevance within a rapidly evolving Web infrastructure. The
work is completed by a conclusion addressing the previously
discussed issues, and giving an overview over related research as
well as over perspectives and further work. | de |
dc.contributor.coReferee | Sattler, Kai-Uwe Prof. Dr. | de |
dc.subject.topic | Mathematics and Natural Science | de |
dc.subject.bk | 54.64 | de |
dc.identifier.urn | urn:nbn:de:gbv:7-webdoc-1700-6 | de |
dc.identifier.purl | webdoc-1700 | de |
dc.identifier.ppn | 573782563 | de |