 |
Finished diploma thesis:
Optimierung der Prozessierung von XIRQL-Anfragen
|
 |
Supervisor(s)
Student
Related projects
-
FOCUS
-
Focussed retrieval of structured documents
-
HyREX
-
Hyper-media Retrieval Engine for
XML
Finished
2002-01
Task description
XIRQL ist die XML Information Retrieval Query
Language. Während die derzeit vorgeschlagenen
XML-Anfragesprachen (wie z. B. XQL, XPath, Quilt, XMLQL) meist
sehr gut mit der Struktur in XML-Dokumenten umgehen können,
integriert XIRQL das Struktur-orientierte Retrieval mit
Information-Retrieval-Funktionalität. Hierzu zählt die
Gewichtung bei Indexierung und Anfragestellung, Ranking von
Retrievalergebnissen und das Formulieren von
Anfragebedingungen mit Datentypen und ihren vagen Prädikaten.
Zur Prozessierung wurde eine Algebra entworfen, die in
[Fuhr/Grossjohann:01]
dokumentiert und
prototypisch implementiert wurde.
Anhand dieser Algebra (und geeigneter Erweiterungen) soll nun
die Prozessierung von XIRQL-Anfragen optimiert werden.
Dazu müssen zunächst folgende Schritte durchgeführt werden:
-
Ermittlung von Äquivalenzen in der Algebra.
-
Ermittlung der Algebra-Operatoren auf physischer Ebene.
Welche Operatoren werden innerhalb der logischen Ebene
verwendet? Welche Operatoreen werden von der physischen
Ebene zur Verfügung gestellt?
-
Gegebenenfalls ist die Algebra zu erweitern, sollten auf
physischer Ebene Operatoren zur Verfügung stehen, die
bislang in der Algebra keine Darstellung haben.
Ist diese Basis geschaffen, können bereits alternative
Prozessierungswege für eine XIRQL-Anfrage aufgestellt werden.
In einem zweiten Schritt müssen die Alternativen nun bezüglich
ihrer Effizienz bewertet werden. Dazu ist insbesondere die
Selektivität der Operatoren auf physischer Ebene
(z. B. anhand der benötigten I/O-Zugriffe) und die Größe der
jeweils entstehenden Zwischenergebnisse zu betrachten.
Die so entwickelten Optimierungsstrategien sind innerhalb von
HyREX zu implementieren und
evaluieren.
Literature
-
N. Fuhr; K. Großjohann (2001).
-
XIRQL: A Query Language for Information Retrieval in XML Documents. In SIGIR:01
|