Supervisor(s)

Student

Finished

1998-07

Task description

Strukturierte Dokumente bieten gegenüber Dokumenten, die nur als Menge von Termen aufgefasst werden, einen Informationsvorteil. Hier hat sich insbesondere der SGML-Standard etabliert. Strukturierte Dokumente werden als komplexe Objekte dargestellt. So können viele dieser Vorteile, insbesondere die logische Struktur und Attributwerte, effizient modelliert werden. Damit bietet sich beim Retrieval die Möglichkeit, die Dokumente mit einer feineren Granularität zu betrachten und entsprechend genauere Retrievalergebnisse zu liefern. Das Wissen der einzelnen komplexen Objekte, die ein Dokument darstellen, wird dabei mit Hilfe von unsicherer Propagierung an die jeweils umgebenden Objekte weitergereicht.

Diese Diplomarbeit soll die mit einer strukturierten Betrachtung der Dokumentenbasis einhergehenden Vorteile und Probleme für das Retrieval näher betrachten. Dabei werden sowohl allgemeine Erscheinungen wie die Struktur der gelieferten Ergebnisse bei variablen Gewichten der Propagierung als auch die erzielte Retrievalqualität untersucht. Dazu muss ein Modell entwickelt werden, mit dem die Retrievalqualität bei einer strukturierten Betrachtung von Dokumenten und Ergebnissen bewertet werden kann.

Als Beispielkollektion für diese Arbeit dient ein Ausschnitt aus der Dokumentation zur Programmiersprache Perl, der zuvor in eine SGML-Darstellung überführt worden ist. Testanfragen und Bewertungen der gelieferten Ergebnisse zu dieser Kollektion liegen noch nicht vor, sondern werden im Zuge dieser Arbeit erstellt.