Betreuer

Bearbeiter

Verwandte Projekte

HyREX
Hyper-media Retrieval Engine for XML

Abgabetermin

2002-10

Aufgabenstellung

Für das derzeit am Fachgebiet in Entwicklung befindliche Retrievalsystem HyREX sollen Suchprädikate für Komposita und Nominalphrasen entwickelt und in das System integriert werden.

Komposita sollen für die deutsche Sprache behandelt werden. Um auch nach Teilkomponenten von Komposita suchen zu können, muss ein automatisches Verfahren zur Zerlegung von Komposita in ihre Komponenten realisiert werden. Dieses Verfahren soll regelbasiert sein, also ohne ein umfangreiches Wörterbuch auskommen.

Für Englisch sollen Nominalphrasen behandelt werden, d.h. das Erkennen von mehrgliedrigen Ausdrücken im Text. Hierzu soll ein Tagger eingesetzt werden, der zunächst die Wortklassen bestimmt. Mit Hilfe einer einfachen Grammatik werden dann zulässige Nominalphrasen definiert und durch den Parser erkannt.

Für beide Verfahren sollen geeignete Zugriffsstukturen definiert und die entsprechenden Suchprädikate in das Retrievalsystem integriert werden. Zur Evaluierung der Güte der Lösungen stehen Test-Kollektionen aus der CLEF-Initiative zur Verfügung.

Literatur

N. Fuhr (1999).
Towards Data Abstraction in Networked Information Retrieval Systems. Information Processing and Management 35(2)
Andrei Mikheev:
LT POS - LTG Part-Of-Speech Tagger, LT CHUNK -- LTG noun group chunker
Carol Peters (Ed.):
Cross-Language Information Retrieval and Evaluation
Norbert Fuhr:
Information Retrieval. Vorlesungsskript.