Supervisor(s)

Student

Related projects

CYCLADES
An Open Collaborative Virtual Archives Environment

Finished

2004-11

Formalia

Preconditions
  • Vorlesung Informationssysteme oder Information Retrieval
  • Programmiersprache Java

Task description

Das Deep Web ist der Teil des WWW, der für konventionelle Suchmaschinen nur schwer zugänglich ist. Neben nichttextuellen Daten in verschiedenen Medienformaten gehören dazu insbesondere auch generierte Seiten und Daten, die von digitalen Bibliotheken zur Verfügung gestellt werden. Während die Suche im Deep Web seit einigen Jahren Thema wissenschaftlicher Forschung ist, fehlen bislang weitgehend Lösungen für das Browsing, z.B. eine Kategorisierung im Stil von Yahoo oder eine automatische Aufteilung in inhaltlich zusammengehörige Gruppen (Clustering, siehe zum Beispiel [Berkhin:02] ).

K-Means [Hartigan/Wong:79] ist ein Algorithmus zur Aufteilung einer Menge von Daten in eine gegebene Anzahl von Clustern.

Im Rahmen dieser Diplomarbeit soll der K-Means-Algorithmus zum Clustern der Daten einer Deep-Web-Quelle eingesetzt werden. Dabei soll vereinfachend von einer homogenen Kollektion ausgegangen werden, d.h. die Dokumente haben eine weitgehend gleiche Struktur. Pfade, die in allen Dokumenten auftreten, lassen sich dadurch auch als Felder betrachten, und die Dokumente können als flache Feld-Wert-Struktur behandelt werden. Das für die Umsetzung des Algorithmus zu entwickelnde Ähnlichkeitsmaß soll zwei Eigenschaften solcher Daten berücksichtigen: Felder und verschiedene Datentypen.

Die Aufgabe umfaßt insbesondere folgende Punkte:

Result text

Nebil Nouri (2004).
K-Means-Clustering für semistrukturierte Daten. Diplomarbeit

Literature

Pavel Berkhin (2002).
Survey Of Clustering Data Mining Techniques. Technical Report, Accrue Software, San Jose, CA
J. A. Hartigan; M. A. Wong (1979).
A K-Means Clustering Algorithm. Applied Statistics 28
A. Doucet; H. Ahonen-Myka (2002).
Naive clustering of a large XML document collection. In INitiative for the Evaluation of XML Retrieval (INEX). Proceedings of the First INEX Workshop. Dagstuhl, Germany, December 8--11, 2002