 |
Finished diploma thesis:
Entwicklung und Implementierung von Retrievalmethoden
für strukturierte Dokumente
|
 |
Supervisor(s)
Student
Related projects
-
HyREX
-
Hyper-media Retrieval Engine for
XML
Finished
2001-08
Task description
Für Volltextretrieval werden Methoden benötigt, die die
Struktur der Dokumente berücksichtigen. Hauptziel ist hierbei,
den für eine Anfrage relevanten Teil eines Dokumentes zu
finden. Im Rahmen dieser Arbeit sollen zwei verschiedene
Ansätze für dieses Problem betrachtet werden:
-
Ein Dokument wird als baumartige Struktur mit ungetypten
Knoten aufgefasst und die Knoten werden einzeln gespeichert
und indexiert. Zur Berücksichtigung der Struktur muss ein
entsprechender Pfadindex angelegt werden, und die
Retrievalfunktion muss bei der Berechnung der
Retrievalgewichte die Länge der jeweiligen Pfade
berücksichtigen.
-
Dokumentformate wie z.B. XML implizieren ebenfalls eine
baumartige Dokumentstruktur, wobei aber alle Knoten getypt
sind. Dementsprechend soll es möglich sein, in der Anfrage
zusätzlich Bedingungen an den Typ der zu findenden Knoten zu
stellen. In der Literatur sind verschiedene Algorithmen für
solche Arten von Anfragen vorgeschlagen, von denen einer
ausgewählt und implementiert werden soll.
Für beide Ansätze soll eine Realisierung als Teil des am
Lehrstuhl entwickelten IR-Systems DesIRe entwickelt werden. Da
beim zweiten Ansatz im Allgemeinen feinere Dokumentstrukturen
als im ersten Fall betrachtet werden, sollen darüber hinaus
Möglichkeiten zur Kombination untersucht werden.
Literature
-
G. Navarro; R. Baeza-Yates (1997).
-
Proximal nodes: a model to query document databases by content and structure. ACM Transactions on Information Systems 15(4)
-
Holger Meuss (1998).
-
Indexed Tree Matching with Complete Answer Representations. In: Proceedings of the Workshop on Principles of Digital Document Processing 1998
|