Supervisor(s)

Student

Related projects

FOCUS
Focussed retrieval of structured documents
HyREX
Hyper-media Retrieval Engine for XML

Finished

2002-01

Task description

XIRQL ist die XML Information Retrieval Query Language. Während die derzeit vorgeschlagenen XML-Anfragesprachen (wie z. B. XQL, XPath, Quilt, XMLQL) meist sehr gut mit der Struktur in XML-Dokumenten umgehen können, integriert XIRQL das Struktur-orientierte Retrieval mit Information-Retrieval-Funktionalität. Hierzu zählt die Gewichtung bei Indexierung und Anfragestellung, Ranking von Retrievalergebnissen und das Formulieren von Anfragebedingungen mit Datentypen und ihren vagen Prädikaten.

Zur Prozessierung wurde eine Algebra entworfen, die in [Fuhr/Grossjohann:01] dokumentiert und prototypisch implementiert wurde. Anhand dieser Algebra (und geeigneter Erweiterungen) soll nun die Prozessierung von XIRQL-Anfragen optimiert werden. Dazu müssen zunächst folgende Schritte durchgeführt werden:

Ist diese Basis geschaffen, können bereits alternative Prozessierungswege für eine XIRQL-Anfrage aufgestellt werden. In einem zweiten Schritt müssen die Alternativen nun bezüglich ihrer Effizienz bewertet werden. Dazu ist insbesondere die Selektivität der Operatoren auf physischer Ebene (z. B. anhand der benötigten I/O-Zugriffe) und die Größe der jeweils entstehenden Zwischenergebnisse zu betrachten.

Die so entwickelten Optimierungsstrategien sind innerhalb von HyREX zu implementieren und evaluieren.

Literature

N. Fuhr; K. Großjohann (2001).
XIRQL: A Query Language for Information Retrieval in XML Documents. In Proceedings of the 24th Annual International Conference on Research and development in Information Retrieval