 |
Finished diploma thesis:
K-Means-Clustering für semistrukturierte Daten
|
 |
Supervisor(s)
Student
Related projects
-
CYCLADES
-
An Open Collaborative Virtual Archives Environment
Finished
2004-11
Formalia
- Preconditions
-
- Vorlesung Informationssysteme oder
Information Retrieval
- Programmiersprache Java
Task description
Das Deep Web ist der Teil des WWW, der für konventionelle
Suchmaschinen nur schwer zugänglich ist. Neben nichttextuellen
Daten in verschiedenen Medienformaten gehören dazu
insbesondere auch generierte Seiten und Daten, die von
digitalen Bibliotheken zur Verfügung gestellt werden. Während
die Suche im Deep Web seit einigen Jahren Thema
wissenschaftlicher Forschung ist, fehlen bislang weitgehend
Lösungen für das Browsing, z.B. eine Kategorisierung im Stil
von Yahoo oder eine automatische Aufteilung in inhaltlich
zusammengehörige Gruppen (Clustering, siehe zum Beispiel
[Berkhin:02]
).
K-Means
[Hartigan/Wong:79]
ist ein Algorithmus zur
Aufteilung einer Menge von Daten in eine gegebene Anzahl von Clustern.
Im Rahmen dieser Diplomarbeit soll der K-Means-Algorithmus
zum Clustern der Daten einer Deep-Web-Quelle eingesetzt
werden. Dabei soll vereinfachend von einer homogenen
Kollektion ausgegangen werden, d.h. die Dokumente haben eine
weitgehend gleiche Struktur. Pfade, die in allen Dokumenten
auftreten, lassen sich dadurch auch als Felder betrachten, und
die Dokumente können als flache Feld-Wert-Struktur behandelt
werden. Das für die Umsetzung des Algorithmus zu entwickelnde
Ähnlichkeitsmaß soll zwei Eigenschaften solcher Daten
berücksichtigen: Felder und verschiedene Datentypen.
Die Aufgabe umfaßt insbesondere folgende Punkte:
- Erarbeitung eines State-of-the-Art zum Clustering von semistrukturierten Daten
- Beschreibung und Anpassung von K-Means für das Clustern von
semistrukturierten Daten
- Prototypische Implementierung und Auswertung für
einen geeigneten Anwendungsfall.
Result text
-
Nebil Nouri (2004).
-
K-Means-Clustering für semistrukturierte Daten. Masterthesis
Literature
-
Pavel Berkhin (2002).
-
Survey Of Clustering Data Mining Techniques. Technical Report, Accrue Software, San Jose, CA
-
J. A. Hartigan; M. A. Wong (1979).
-
A K-Means Clustering Algorithm. Applied Statistics 28
-
A. Doucet; H. Ahonen-Myka (2002).
-
Naive clustering of a large XML document collection. In INEX:03
|