 |
Finished diploma thesis:
Effektive und effiziente Updates in invertierten Dateien
|
 |
Supervisor(s)
Student
Related projects
-
HyREX
-
Hyper-media Retrieval Engine for
XML
Finished
2003-01
Task description
Für HyREX, die Hypermedia Retrieval Engine für XML-Dokumente,
werden Zugriffspfade benötigt, die ein effizientes Update
(Hinzufügen/Modifiziern/Löschen von Dokumenten zur Datenbasis)
erlauben.
Der im Information Retrieval gebräuchlichste Zugriffspfad ist
die Invertierte Datei. Terme werden auf effiziente
Weise auf Vorkommensbeschreibungen abgebildet. Jede
Vorkommensbeschreibung (auch Posting genannt) gibt
Auskunft darüber, in welchem Dokument der Term an welcher
Stelle auftritt. Dazu können weitere Informationen, die das
Vorkommen näher charakterisieren, in einem Posting gespeichert
werden. Insbesondere für das Text-Retrieval wird im
Allgemeinen noch ein Indexierungsgewicht gespeichert, welches
Auskunft über die Relevanz des Terms für das vorliegende
Dokument gibt. Für die Berechnung solcher Indexierungsgewichte
werden in der Praxis häufig heuristische Verfahren verwendet,
die sich am Vektorraummodell orientieren.
Innerhalb dieser Diplomarbeit sollen Algorithmen und
Datenstrukturen untersucht und implementiert werden, die
effiziente Update-Operationen auf invertierten Listen
erlauben. Insbesondere sollen dabei verschiedene Verfahren zur
Berechnung von Indexierungsgewichten betrachtet werden, sowohl
in Hinblick auf die Update-Effizienz als auch in Hinblick auf
die resultierende Retrievalqualität.
Literature
-
Shoens, K.; Tomasic, A.; Garcia-Molina, H.:
-
Synthetic workload performance analysis of incremental updates
-
Tomasic, A.; Garcia-Molina, H.; Shoens, K.:
-
Incremental Updates of Inverted Lists for Text Document Retrieval
-
Carol Peters (Ed.):
-
Cross-Language Information Retrieval and Evaluation
-
Norbert Fuhr:
-
Information Retrieval. Vorlesungsskript.
|