Betreuer

Bearbeiter

Verwandte Projekte

CLASSIX
Classification and Intelligent Search on Information in XML
CYCLADES
Verteilte und kollaborierende Dienste für offene digitale Archive
DAFFODIL
Nutzerorientiertes Zugangssystem für heterogene Digitale Bibliotheken

Verwandte Lehrveranstaltungen

Yahoo für das Invisible Web: Scatter/Gather-Clustering für semistrukturierte Daten
Studien-/Praxisprojekt: Yahoo für das Invisible Web: Scatter/Gather-Clustering für semistrukturierte Daten
Prof. Dr.-Ing. Norbert Fuhr, Dipl.-Inform. Gudrun Fischer

Abgabetermin

2005-06

Formalia

Voraussetzungen
  • Vorlesung Data Mining, Informationssysteme oder Information Retrieval
  • Gute Programmierfähigkeiten (notwendig)
  • Programmiersprache Java (notwendig)
  • XML (wünschenswert)

Aufgabenstellung

Um eine Menge von Dokumenten überblicksmäßig einschätzen zu können, benötigt man eine inhaltliche Zusammenfassung oder wenigstens eine Inhaltsangabe - eine kompakte, für den Anwender verständliche Darstellung des Inhalts der Dokumentenmenge. Die Aufgabe, eine solche Darstellung zu erstellen, nennt man Summarization. Anwendungsfälle, wo in unseren Forschungsprojekten Mengen von Dokumenten zusammenfassend dargestellt werden müsssen, sind zum Beispiel:

Im Fall von XML sind neben dem textuellen Inhalt von Dokumenten auch deren Struktur und eventuell andere Datentypen zu berücksichtigen. Verschiedene Datentypen lassen ggf. verschiedene Zusammenfassungsverfahren zu. So ist denkbar, eine Menge von Zahlen durch ihren Durchschnitt oder ihre Summe zusammenzufassen, oder eine Menge von Jahreszahlen als Intervall.

In dieser Arbeit soll ein Werkzeug entwickelt werden, mit dem ein Anwender Zusammenfassungsregeln für eine Kollektion definieren kann. Anhand solcher Regeln soll eine Kollektion danach automatisch zusammengefasst werden. Vereinfachend darf von einer strukturell homogenen Kollektion ausgegangen werden.

Die Aufgabenstellung umfasst insbesondere folgende Aspekte:

Fertiger Text

Igor Jacy Lino Campista (2005).
Semi-Automatic Summarization of XML collections. Diplomarbeit