Supervisor(s)

Student

Related courses

Yahoo für das Invisible Web: Scatter/Gather-Clustering für semistrukturierte Daten
Student project: Yahoo für das Invisible Web: Scatter/Gather-Clustering für semistrukturierte Daten
Prof. Dr.-Ing. Norbert Fuhr, Dipl.-Inform. Gudrun Fischer

Finished

2004-09

Formalia

Preconditions
  • Vorlesung Informationssysteme oder Information Retrieval
  • Gute Programmierfähigkeiten (notwendig)
  • Programmiersprache Java (notwendig)

Task description

Im Studienprojekt Invisible Web wurde ein Cluster-basiertes Browsing-Werkzeug für XML-Kollektionen entwickelt. Mit diesem Werkzeug kann der Anwender eine Kollektion von XML-Dokumenten erforschen, indem er sich die Kollektion zunächst grob in Gruppen von untereinander ähnlichen Dokumenten unterteilen lässt, dann einzelne oder mehrere Gruppen auswählt und genauer aufteilen lässt usw.

Eine ähnliche Funktionalität ist auch für die Terme denkbar, die in den Dokumenten einer Kollektion vorkommen, sogar ohne dabei die Dokumente selber zu betrachten. Eine Menge von Termen müsste jeweils automatisch so aufgeteilt werden, dass der Anwender einen kompakten Überblick über die Gesamtmenge erhält. Die so entstandenen Partitionen müssten wiederum auswählbar sein, um sie noch feiner aufzuteilen, usw. Mögliche Ansätze hierfür sind Clustering (Aufteilung nach Ähnlichkeit) oder zum Beispiel eine Aufteilung in Intervalle ("A" bis "Ch", "Ci" bis "Feu" ...). Diese Funktionalität ließe sich später auf Attributwerte (Inhalte bestimmter Felder der XML-Dokumente, z.B. Autorennamen oder Jahreszahlen) verallgemeinern.

XML-Dokumente einerseits und Terme andererseits sind zwei Abstraktionsebenen derselben Kollektion und bilden einen Multi-Level-Hypertext (vergl. auch [Fuhr:99c] ), da es innerhalb dieser Ebenen Verbindungen zwischen Objekten gibt (z.B. Ähnlichkeit, Auftreten im selben Cluster), aber auch zwischen Objekten unterschiedlicher Ebenen: ein Dokument enthält bestimmte Terme, ein Term wiederum tritt in verschiedenen Dokumenten auf.

In dieser Diplomarbeit soll ein Konzept für das integrierte Browsing auf beiden Ebenen entwickelt werden: Der Anwender soll Dokumentbeschreibungen browsen können, ebenso wie Mengen von Termen. Innerhalb einer Ebene sollen verschiedene Anordnungsmechanismen möglich sein, z.B. eine Rangliste oder eine Aufteilung in Gruppen (Cluster). Der Übergang von einer Ebene zur anderen soll intuitiv und möglichst ohne nennenswerte Wartezeit erfolgen. Der Anwender soll also möglichst leicht von einem Dokument zu dessen Termen (und ggf. weiteren passenden) kommen, und von einem Term wiederum zu passenden Dokumenten.

Diese Diplomarbeit umfasst folgende Aufgaben:

Result text

Michael Chojnacki (2004).
Browsing in Multi-Level-Hypertext. Diplomarbeit

Literature

N. Fuhr (1999).
Information Retrieval in Digitalen Bibliotheken. In: 21. DGI-Online-Tagung -- Aufbruch ins Wissensmanagement.. DGI, Frankfurt.