3.2.1 Das Monet XML Modell
Ein relativ einfaches Verfahren bildet das Monet XML Modell3 [SKW00]. Dieses Modell extrahiert
keine Informationen aus den DTDs oder Schemata, sondern verwendet ausschließlich die
Elementstruktur der Dokumente. Im ersten Schritt wird aus dem Dokument ein Syntaxbaum generiert.
Abbildung 1 zeigt diese Umsetzung für einen Teil des Beispiel-Dokumentes bib.xml.
bib,o1
item,o2
titel,o3
cdata,o4
Data on the Web
string
autor,o7
cdata,o8
Abiteboul
string
jahr,o9
autor,o5
cdata,o10
1999
string
item,o11
1-55.. id
Buch
typ
Abbildung 1: Teile aus dem Syntaxbaum
Attribute werden dabei durch extern verweisende Pfeile dargestellt. Die Elemente umspannen je einen
Teilbaum und sind somit innere Knoten. Diese Knoten werden mit eindeutigen Nummern versehen,
um sie später unterscheiden zu können. Die Umsetzung von CDATA auf String wurde mit dem Zweck
durchgeführt, mehr als eine Art von Datentyp später integrieren zu können. Besonders XML-Schema
dürfte daraus Vorteile ziehen können.
Im zweiten Schritt wird eine Transformation des Graphen durchgeführt, indem an der Wurzel
beginnend die einzelnen Stufen des Baumes gespeichert werden. Abbildung 2: Zerlegung des
Synatxbaums zeigt diese für den eben entwickelten Syntaxbaum.
bib e item = {(o1,o2), (o1,o11)}
bib
=
((o
e
item e titel
2,o3), ....}
bib e item e titel e cdata = {(o3,o4), ...}
bib e item e titel e cdata a string = {(o4,Data on the Web), ...
bib
=
{(o
e
item e autor
2,o5), (o2,o7), ...}
bib e item e autor e cdata = {(o5,o6), (o7,o8), ...}
bib e item e autor e cdata a string = {(o8,Abiteboul), (o5,...
bib
=
((o
e
item e jahr
2,o9), ....}
bib e item e jahr e cdata = {(o9,o10), ...}
bib e item e jahr e cdata a string = {(o10,1999), ...
bib
=
((o
e
item a typ
2,Buch), ....}
bib e item a id = ((o2,1-55...), ....}
.... = ....
Abbildung 2: Zerlegung des Synatxbaums
3
Der Name Monet stammt von einem Datenbanksystem, welches als Grundlage für die Entwicklung dieses
Modells diente.
18
|