 |
Abgeschlossene Diplomarbeit: Semi-Automatische Inhaltsübersicht für XML-Kollektionen
|
 |
Betreuer
Bearbeiter
Verwandte Projekte
-
CLASSIX
-
Classification and Intelligent Search on
Information in XML
-
CYCLADES
-
Verteilte und kollaborierende Dienste für offene digitale Archive
-
DAFFODIL
-
Nutzerorientiertes Zugangssystem für heterogene Digitale
Bibliotheken
Verwandte Lehrveranstaltungen
-
Studienprojekt:
Yahoo für das Invisible Web: Scatter/Gather-Clustering für semistrukturierte Daten
-
Prof. Dr.-Ing. Norbert Fuhr, Dipl.-Inform. Gudrun Fischer
Abgabetermin
2005-06
Formalia
- Voraussetzungen
-
- Vorlesung Data Mining, Informationssysteme oder
Information Retrieval
- Gute Programmierfähigkeiten (notwendig)
- Programmiersprache Java (notwendig)
- XML (wünschenswert)
Aufgabenstellung
Um eine Menge von Dokumenten überblicksmäßig einschätzen zu
können, benötigt man eine inhaltliche Zusammenfassung oder
wenigstens eine Inhaltsangabe - eine kompakte, für den
Anwender verständliche Darstellung des Inhalts der
Dokumentenmenge. Die Aufgabe, eine solche Darstellung zu
erstellen, nennt man Summarization. Anwendungsfälle,
wo in unseren Forschungsprojekten Mengen von Dokumenten
zusammenfassend dargestellt werden müsssen, sind zum
Beispiel:
- Digitale Bibliotheken, aus denen der Anwender eine oder
mehrere Quellen für eine Suche auswählen kann (in DAFFODIL und CYCLADES)
- Ergebnismengen von Suchanfragen (in DAFFODIL und CYCLADES)
- Cluster (Gruppen) von Dokumenten (im Praxisprojekt
Invisible Web)
Im Fall von XML sind neben dem textuellen Inhalt von
Dokumenten auch deren Struktur und eventuell andere Datentypen
zu berücksichtigen. Verschiedene Datentypen lassen ggf.
verschiedene Zusammenfassungsverfahren zu. So ist denkbar,
eine Menge von Zahlen durch ihren Durchschnitt oder ihre Summe
zusammenzufassen, oder eine Menge von Jahreszahlen als
Intervall.
In dieser Arbeit soll ein Werkzeug entwickelt werden, mit dem
ein Anwender Zusammenfassungsregeln für eine Kollektion
definieren kann. Anhand solcher Regeln soll eine Kollektion
danach automatisch zusammengefasst werden. Vereinfachend darf
von einer strukturell homogenen Kollektion ausgegangen werden.
Die Aufgabenstellung umfasst insbesondere folgende Aspekte:
- Einarbeitung in die Literatur und Sichtung bestehender
Summarization-Ansätze
- Enwurf von Zusammenfassungsregeln für verschiedene
Datentypen
- Prototypische Implementierung des
Regelentwurfswerkzeugs
- Prototypische Implementierung der automatischen
Zusammenfassung
- Evaluierung
Fertiger Text
-
Igor Jacy Lino Campista (2005).
-
Semi-Automatic Summarization of XML collections. Masterthesis
|