 |
Finished diploma thesis: Browsing in Multi-Level-Hypertext
|
 |
Supervisor(s)
Student
Related courses
-
Student project:
Yahoo für das Invisible Web: Scatter/Gather-Clustering für semistrukturierte Daten
-
Prof. Dr.-Ing. Norbert Fuhr, Dipl.-Inform. Gudrun Fischer
Finished
2004-09
Formalia
- Preconditions
-
- Vorlesung Informationssysteme oder
Information Retrieval
- Gute Programmierfähigkeiten (notwendig)
- Programmiersprache Java (notwendig)
Task description
Im Studienprojekt Invisible
Web wurde ein Cluster-basiertes Browsing-Werkzeug für
XML-Kollektionen entwickelt. Mit diesem Werkzeug kann der
Anwender eine Kollektion von XML-Dokumenten erforschen, indem
er sich die Kollektion zunächst grob in Gruppen von
untereinander ähnlichen Dokumenten unterteilen
lässt, dann einzelne oder mehrere Gruppen auswählt und genauer
aufteilen lässt usw.
Eine ähnliche Funktionalität ist auch für die Terme denkbar, die in
den Dokumenten einer Kollektion vorkommen, sogar ohne dabei die
Dokumente selber zu betrachten. Eine Menge von Termen müsste jeweils automatisch so
aufgeteilt werden, dass der Anwender einen kompakten Überblick
über die Gesamtmenge erhält.
Die so entstandenen Partitionen müssten wiederum auswählbar
sein, um sie noch feiner aufzuteilen, usw. Mögliche Ansätze
hierfür sind Clustering (Aufteilung nach Ähnlichkeit)
oder zum Beispiel eine Aufteilung in Intervalle ("A" bis "Ch",
"Ci" bis "Feu" ...). Diese Funktionalität ließe sich
später auf Attributwerte (Inhalte bestimmter Felder der
XML-Dokumente, z.B. Autorennamen oder Jahreszahlen) verallgemeinern.
XML-Dokumente einerseits und Terme andererseits sind
zwei Abstraktionsebenen derselben Kollektion und bilden einen
Multi-Level-Hypertext (vergl. auch
[Fuhr:99c]
), da
es innerhalb dieser Ebenen Verbindungen zwischen Objekten gibt
(z.B. Ähnlichkeit, Auftreten im selben Cluster),
aber auch zwischen Objekten unterschiedlicher
Ebenen: ein Dokument enthält bestimmte Terme, ein Term
wiederum tritt in verschiedenen Dokumenten auf.
In dieser Diplomarbeit soll ein Konzept für das integrierte
Browsing auf beiden Ebenen entwickelt werden: Der Anwender soll
Dokumentbeschreibungen browsen können, ebenso wie Mengen von
Termen. Innerhalb einer Ebene sollen verschiedene
Anordnungsmechanismen möglich sein, z.B. eine Rangliste oder
eine Aufteilung in Gruppen (Cluster). Der Übergang von einer
Ebene zur anderen soll intuitiv und möglichst ohne
nennenswerte Wartezeit erfolgen. Der Anwender soll also
möglichst leicht von einem Dokument zu dessen Termen
(und ggf. weiteren passenden) kommen, und von einem
Term wiederum zu passenden Dokumenten.
Diese Diplomarbeit umfasst folgende Aufgaben:
- Aufarbeitung der Literatur
- Entwicklung und prototypische Implementierung eines
Browsing-Werkzeugs für Multi-Level-Hypertext, insbesondere
- eine Clustering-Komponente für Terme
- Integration von Term- und Dokumenten-Browsing
- Evaluierung des entstandenen Werkzeugs
Result text
-
Michael Chojnacki (2004).
-
Browsing in Multi-Level-Hypertext. Masterthesis
Literature
-
N. Fuhr (1999).
-
Information Retrieval in Digitalen Bibliotheken. In: 21. DGI-Online-Tagung -- Aufbruch ins Wissensmanagement.. DGI, Frankfurt.
|