 |
Yahoo für das Invisible Web: Scatter/Gather-Clustering für semistrukturierte Daten
- Studienprojekt,
Wintersemester 2003/2004
|  |
Lehrpersonen- Dozent(in)
TermineVorlesung| Tag | Zeit | Ort |
|---|
|
Montag
| 14:00 -
16:00 | LF/230 | |
Dienstag
| 10:00 -
12:00 | LB/239 |
| |
Beschreibung
Inhalt
Invisible Web, Deep Web oder Hidden
Web sind Bezeichnungen
für diejenigen Dokumente im WWW, die nicht als statische
Seiten existieren, sondern erst auf Anfrage von einem
Web-Dienst generiert werden (z.B. aus einer Datenbank).
Die Open Archives
sind ein Beispiel für Quellen von Deep-Web-Dokumenten. Im
Rahmen des Projektes CYCLADES wurde eine
Infrastruktur entwickelt, um Dokumente aus beliebigen
Open-Archives-konformen Quellen zu holen, zu indexieren und
suchbar zu machen. Die Dokumente liegen in verschiedenen
XML-Schemata vor.
So wie Yahoo ein Browsen von Seiten des Visible Web
ermöglicht, soll für das Hidden Web (am
Beispiel von Open Archives) ein Browsing-Werkzeug entwickelt
werden, das auf Clustering basiert.
Das Werkzeug soll nach dem
Scatter/Gather-Algorithmus (
[Cutting/etal:92]
,
[Cutting/etal:93]
) zunächst ein grobes Clustering der
Daten vornehmen, den Anwender dann einen oder mehrere der
entstandenen Cluster auswählen lassen, und deren Inhalt von
neuem in Cluster aufteilen, usw. So entsteht für den Anwender
eine kategorie-ähnliche, aber dynamische Aufteilung des
Datenraums, der er in beliebige Tiefe folgen kann.
-
Java-Programmierkenntnisse
-
Wünschenswert sind außerdem Kenntnisse in Information
Retrieval oder Datenbanken.
Dieses Studienprojekt richtet sich an Studierende des
Diplomstudienganges Angewandte Informatik im Hauptstudium.
-
Michael Chojnacki
-
(Khalid Khan)
-
Ting Li
-
Andre Nurzenski
-
Zhihong Tang
Das Studienprojekt umfasst 12 Semesterwochenstunden.
Zusätzlich findet vom 17. bis 19. Oktober ein
Blockseminar statt, in dem wir uns mit
dem Hintergrund und den wesentlichen Techniken vertraut machen
werden. Nicht zu vergessen mit den anderen Projektteilnehmern.
Die Teilnahme am Seminar ist verpflichtend.
-
Sonntag, 14.September, Anmeldeschluss (Anmeldung per E-Mail an
Gudrun Fischer,
<Gudrun.Fischer@uni-duisburg.de>
)
-
bis Dienstag, 16. September, Themenvergabe für das Blockseminar
-
ab 13. Oktober Semester mit 2 Gruppenbesprechungen pro Woche
(jeweils montags, 14-16 Uhr in LF230 und dienstags, 10-12 Uhr in LB239)
-
Freitag, 17. Oktober, bis Sonntag, 19. Oktober,
Blockseminar in der Jugendherberge Hagen
Wir werden in diesem Projekt auf Debian-Linux-Maschinen
arbeiten und folgende Werkzeuge und Standards verwenden:
Die folgenden Diplomarbeiten führen die Materie weiter:
Veranstalter dieses Studienprojekts sind:
|