Betreuer

Bearbeiter

Verwandte Projekte

HyREX
Hyper-media Retrieval Engine for XML

Abgabetermin

2003-01

Aufgabenstellung

Für HyREX, die Hypermedia Retrieval Engine für XML-Dokumente, werden Zugriffspfade benötigt, die ein effizientes Update (Hinzufügen/Modifiziern/Löschen von Dokumenten zur Datenbasis) erlauben.

Der im Information Retrieval gebräuchlichste Zugriffspfad ist die Invertierte Datei. Terme werden auf effiziente Weise auf Vorkommensbeschreibungen abgebildet. Jede Vorkommensbeschreibung (auch Posting genannt) gibt Auskunft darüber, in welchem Dokument der Term an welcher Stelle auftritt. Dazu können weitere Informationen, die das Vorkommen näher charakterisieren, in einem Posting gespeichert werden. Insbesondere für das Text-Retrieval wird im Allgemeinen noch ein Indexierungsgewicht gespeichert, welches Auskunft über die Relevanz des Terms für das vorliegende Dokument gibt. Für die Berechnung solcher Indexierungsgewichte werden in der Praxis häufig heuristische Verfahren verwendet, die sich am Vektorraummodell orientieren.

Innerhalb dieser Diplomarbeit sollen Algorithmen und Datenstrukturen untersucht und implementiert werden, die effiziente Update-Operationen auf invertierten Listen erlauben. Insbesondere sollen dabei verschiedene Verfahren zur Berechnung von Indexierungsgewichten betrachtet werden, sowohl in Hinblick auf die Update-Effizienz als auch in Hinblick auf die resultierende Retrievalqualität.

Literatur

Shoens, K.; Tomasic, A.; Garcia-Molina, H.:
Synthetic workload performance analysis of incremental updates
Tomasic, A.; Garcia-Molina, H.; Shoens, K.:
Incremental Updates of Inverted Lists for Text Document Retrieval
Carol Peters (Ed.):
Cross-Language Information Retrieval and Evaluation
Norbert Fuhr:
Information Retrieval. Vorlesungsskript.