Supervisor(s)

Student

Related projects

MIND
Resource Selection and Data Fusion for Multimedia International Digital Libraries

Finished

2004-02

Formalia

Preconditions
  • Vorlesung Informationssysteme oder Information Retrieval
  • Programmiersprache Java

Task description

Im Rahmen des Projektes MIND werden heterogene digitale Bibliotheken (DLs) durch eine zusätzliche Schicht zusammengefügt, so daß Benutzer die Illusion einer einheitlichen Digitalen Bibliothek hat. DL-spezifische Wrapper wandeln die Anfrage in das DL-Format um, kommunizieren mit der DL, parsen das Ergebnis (meist im HTMl-Format) und wandeln es in ein einheitliches Format (die MIND-Dokumentenrepräsentation) um.

Durch das Parsen von HTML-Code ist ein erheblicher manualler Aufwand nicht nur beim Einbinden einer neuen DL, sondern auch beim Pflegen vorhandener DLs (wenn sich der HTML-Code ändert) erforderlich. Ziel dieser Diplomarbeit ist das semiautomatische Pflegen von Wrappern, d.h. das Nachvollziehen von Änderungen im HTML-Code.

Angenommen wird, daß Dokumente vorliegen, die aus der DL extrahiert wurden, plus die zugehörigen alten HTML-Seiten und die Fragen, mit denen die Dokumente retrievt wurden. Außerdem ist der alte Wrapper in einer maschinenlesbaren Form (z.B. XPath, Daffodil-Wrapper-Toolkit) vorhanden. Ein neuer Wrapper könnte z.B. durch verschiedene Techniken erzeugt werden:

Diese Diplomarbeit umfaßt folgende Schritte:

Result text

Andrea Ernst-Gerlach (2004).
Semiautomatisches Pflegen von Wrappern. Diplomarbeit

Literature

W3C (1999)
XML Path Language (XPath)
Markus Rupp (2002)
DAFFODIL: Wrapper für digitale Bibliotheken in Daffodil (Diplomarbeit).
DoorenBos, R.B., Etzioni, O., Weld, D.S. (1997)
A scalable comparison-shopping agent for the World-Wide Web