 |
Finished diploma thesis: Cluster-basiertes Browsing in Peer-to-Peer-Netzen
|
 |
Supervisor(s)
Student
Related projects
-
Pepper
-
Peer-to-Peer Architectures for Federated Search of Complex
Digital Libraries
Related courses
-
Student project:
Yahoo für das Invisible Web: Scatter/Gather-Clustering für semistrukturierte Daten
-
Prof. Dr.-Ing. Norbert Fuhr, Dipl.-Inform. Gudrun Fischer
Finished
2005-03
Formalia
- Preconditions
-
- Vorlesung Informationssysteme oder
Information Retrieval (empfohlen)
- Gute Programmierfähigkeiten (notwendig)
- Programmiersprache Java (notwendig)
Task description
Peer-to-Peer-Netze (P2P) sind spontane Verbindungen von
Clients, denen eine zentrale Instanz (ein zentraler Server)
fehlt. Beispiele für P2P-Netze, die dem Filesharing
dienen, sind Napster (hier gibt es allerdings einen zentralen
Index), Gnutella und KaZaa. Im Projekt Pepper werden
Peer-to-Peer-Architekturen für die föderierte Suche in
komplexen digitalen Biliotheken entwickelt. Zusätzlich
zur Suche ist auch eine Browsingfunktionalität
wünschenswert.
Dokumentenclustering ist das Zusammenfassen von Dokumenten
nach Ähnlichkeit in Gruppen (Cluster). Im Praxispojekt Invisible Web wurde ein
Cluster-basiertes Browsing-Werkzeug für beliebige
XML-Kollektionen entwickelt. Dabei wurde eine vorprozessierte
Variante des Scatter/Gather-Algorithmus (
[Cutting/etal:93]
) verwendet, die die jeweilige
Kollektion vor dem Browsing offline als
Cluster-Hierarchie aufbereitet. Das Browsing
geschieht dann größtenteils auf komprimierten
Darstellungen (Profilen) von Dokumentenclustern, anstatt auf
der Dokumentenmenge selbst.
Dieses Prinzip lässt sich auf das Browsing in einem
Peer-to-Peer-Netz von digitalen Bibliotheken übertragen:
Jeder Knoten bildet eine kondensierte Darstellung seines
Inhaltes, indem er seine eigenen Dokumente clustert. Die
oberste(n) Ebene(n) der resultierenden Cluster-Hierarchie und
eventuell weitere Informationen über sich selbst bietet
er dann innerhalb des Netzes seinen Nachbarn an. Wenn
ein Anwender von irgendeinem dieser Knoten aus browsen möchte,
so sammelt der Knoten die kondensierten Darstellungen seiner
Nachbarn, verbindet sie (wieder mittels Clustering) mit seiner
eigenen und bietet dem Anwender so eine Übersicht
über alle zu dem Zeitpunkt gerade verfügbaren
Inhalte an, in der der Anwender dann nach dem
Scatter/Gather-Prinzip in die Tiefe browsen kann.
Im Rahmen dieser Diplomarbeit soll Scatter/Gather-Browsing
für ein Peer-to-Peer-Netz umgesetzt werden.
Clustering-Algorithmen und ein Scatter/Gather-Werkzeug sind
schon vorhanden. Es fehlt ein Verfahren, um Cluster von
verschiedenen Knoten einzusammeln und daraus eine
Gesamtdarstellung zu generieren, sowie die Möglichkeit,
eigene, lokale Cluster zu exportieren.
Diese Diplomarbeit umfasst folgende Aufgaben:
-
Einarbeitung in die Literatur (Clustering, Scatter/Gather, JXTA)
-
Entwurf eines P2P-Browsing-Knotens für das P2P-Netz
JXTA, mit der Fähigkeit,
- eine eigene, Cluster-basierte Darstellung zu
generieren und im Netz anzubieten,
- eigene, vorprozessierte Cluster zu exportieren und
ggf. zu einem Cluster weitere Informationen auf Anfrage zu
liefern, und
- ein verteiltes Scatter/Gather-Browsing
zumindest in der eigenen Umgebung durchzuführen (unter
Verwendung der Informationen über seine
Nachbarknoten).
Result text
-
Andre Nurzenski (2005).
-
Cluster-basiertes Browsing in Peer-to-Peer-Netzen. Masterthesis
Literature
-
D. R. Cutting; D. R. Karger; J. O. Pedersen (1993).
-
Constant Interaction-Time Scatter/Gather Browsing of Very Large Document Collections. In SIGIR:93
|