 |
Abgeschlossene Diplomarbeit:
Semiautomatisches Pflegen von Wrappern
|
 |
Betreuer
Bearbeiter
Verwandte Projekte
-
MIND
-
Auswahl geeigneter Datenbanken und Kombination der
Retrievalergebnisse für multimediale internationale digitale
Bibliotheken
Abgabetermin
2004-02
Formalia
- Voraussetzungen
-
- Vorlesung Informationssysteme oder
Information Retrieval
- Programmiersprache Java
Aufgabenstellung
Im Rahmen des Projektes MIND
werden heterogene digitale Bibliotheken
(DLs) durch eine zusätzliche Schicht zusammengefügt, so daß Benutzer
die Illusion einer einheitlichen Digitalen Bibliothek
hat. DL-spezifische Wrapper wandeln die Anfrage in das DL-Format um,
kommunizieren mit der DL, parsen das Ergebnis (meist im HTMl-Format)
und wandeln es in ein einheitliches Format (die
MIND-Dokumentenrepräsentation) um.
Durch das Parsen von HTML-Code ist ein erheblicher manualler Aufwand
nicht nur beim Einbinden einer neuen DL, sondern auch beim Pflegen
vorhandener DLs (wenn sich der HTML-Code ändert) erforderlich. Ziel
dieser Diplomarbeit ist das semiautomatische Pflegen von Wrappern,
d.h. das Nachvollziehen von Änderungen im HTML-Code.
Angenommen wird, daß Dokumente vorliegen, die aus der DL extrahiert
wurden, plus die zugehörigen alten HTML-Seiten und die Fragen, mit
denen die Dokumente retrievt wurden. Außerdem ist der alte Wrapper in
einer maschinenlesbaren Form (z.B. XPath, Daffodil-Wrapper-Toolkit)
vorhanden. Ein neuer Wrapper könnte z.B. durch verschiedene Techniken
erzeugt werden:
- Heuristiken nutzen Regularitäten in der Struktur aus: Typisch für
Retrievalergebnisseiten ist z.B. ein Kopf und ein Fußbereich und
dazwischen eine listenartige Struktur, wobei jeder Eintrag einem
MIND-Dokument entspricht und einen einheitlichen Aufbau besitzt
(z.B. eine Tabellenzeile, ein Paragraph, getrennt durch ein <br>).
- Suchen von Texten aus der Dokumentrepräsentation in HTML-Code.
- Techniken für das Matchen von MIND-Schema, die zur Zeit entwickelt
werden, können auf das Matching von XHTML (aus dem HTML gewonnen)
und der Dokumentenrepräsentation angepaßt werden.
Diese Diplomarbeit umfaßt folgende Schritte:
- Aufarbeitung der Literatur
- Entwicklung von Verfahren zum Anpassen von HTML-Wrappern für
allgemeine Fälle
- prototypische Implementierung
Fertiger Text
-
Andrea Ernst-Gerlach (2004).
-
Semiautomatisches Pflegen von Wrappern. Masterthesis
Literatur
-
W3C (1999)
-
XML Path Language (XPath)
-
Markus Rupp (2002)
-
DAFFODIL: Wrapper für digitale Bibliotheken in Daffodil (Diplomarbeit).
-
DoorenBos, R.B., Etzioni, O., Weld, D.S. (1997)
-
A scalable comparison-shopping agent for the World-Wide Web
|