 |
Finished diploma thesis: Semi-Automatische Inhaltsübersicht für XML-Kollektionen
|
 |
Supervisor(s)
Student
Related projects
-
CLASSIX
-
Classification and Intelligent Search on
Information in XML
-
CYCLADES
-
An Open Collaborative Virtual Archives Environment
-
DAFFODIL
-
Distributed Agents for User-Friendly Access of Digital Libraries
Related courses
-
Student project:
Yahoo für das Invisible Web: Scatter/Gather-Clustering für semistrukturierte Daten
-
Prof. Dr.-Ing. Norbert Fuhr, Dipl.-Inform. Gudrun Fischer
Finished
2005-06
Formalia
- Preconditions
-
- Vorlesung Data Mining, Informationssysteme oder
Information Retrieval
- Gute Programmierfähigkeiten (notwendig)
- Programmiersprache Java (notwendig)
- XML (wünschenswert)
Task description
Um eine Menge von Dokumenten überblicksmäßig einschätzen zu
können, benötigt man eine inhaltliche Zusammenfassung oder
wenigstens eine Inhaltsangabe - eine kompakte, für den
Anwender verständliche Darstellung des Inhalts der
Dokumentenmenge. Die Aufgabe, eine solche Darstellung zu
erstellen, nennt man Summarization. Anwendungsfälle,
wo in unseren Forschungsprojekten Mengen von Dokumenten
zusammenfassend dargestellt werden müsssen, sind zum
Beispiel:
- Digitale Bibliotheken, aus denen der Anwender eine oder
mehrere Quellen für eine Suche auswählen kann (in DAFFODIL und CYCLADES)
- Ergebnismengen von Suchanfragen (in DAFFODIL und CYCLADES)
- Cluster (Gruppen) von Dokumenten (im Praxisprojekt
Invisible Web)
Im Fall von XML sind neben dem textuellen Inhalt von
Dokumenten auch deren Struktur und eventuell andere Datentypen
zu berücksichtigen. Verschiedene Datentypen lassen ggf.
verschiedene Zusammenfassungsverfahren zu. So ist denkbar,
eine Menge von Zahlen durch ihren Durchschnitt oder ihre Summe
zusammenzufassen, oder eine Menge von Jahreszahlen als
Intervall.
In dieser Arbeit soll ein Werkzeug entwickelt werden, mit dem
ein Anwender Zusammenfassungsregeln für eine Kollektion
definieren kann. Anhand solcher Regeln soll eine Kollektion
danach automatisch zusammengefasst werden. Vereinfachend darf
von einer strukturell homogenen Kollektion ausgegangen werden.
Die Aufgabenstellung umfasst insbesondere folgende Aspekte:
- Einarbeitung in die Literatur und Sichtung bestehender
Summarization-Ansätze
- Enwurf von Zusammenfassungsregeln für verschiedene
Datentypen
- Prototypische Implementierung des
Regelentwurfswerkzeugs
- Prototypische Implementierung der automatischen
Zusammenfassung
- Evaluierung
Result text
-
Igor Jacy Lino Campista (2005).
-
Semi-Automatic Summarization of XML collections. Masterthesis
|