 |
Abgeschlossene Diplomarbeit:
Automatische Kategorisierung von Web-Dokumenten
|
 |
Betreuer
Bearbeiter
Abgabetermin
2001-01
Aufgabenstellung
Für die automatische Kategorisierung von Web-Dokumenten ist
vorgegeben:
- Ein Kategorienschema, in welches die zu kategorisierenden
Dokumente eingeordnet werden müssen (z. B. die
Klassenhierarchie von Yahoo!).
- Eine Lernstichprobe, d. h. eine Menge von Dokumenten, die
bezüglich des vorgegebenen Kategorienschemas bereits
klassifiziert sind.
Ein (automatischer) Klassifikator lernt anhand des Schemas und
der Lernstichprobe, wie neue (noch nicht klassifizierte)
Dokumente in das Schema einzuordnen sind.
In der IR-Gruppe wurden zwei Ansätze zur
automatischen Klassifikation von Web-Dokumenten entwickelt:
-
Der beschreibungsorientierte Ansatz
[Goevert/etal:99]
basiert
auf einer probabilistischen Indexierung der Dokumente der
Lernstichprobe; ein zu klassifizierenedes Dokument wird als
Anfrage an die so erstellte Datenbank interpretiert; aus den
Ergebnisdokumenten für diese Anfrage wird die
Klassifikationsentscheidung mittels des
k-Nearest-Neighbor-Verfahrens
[Yang:94]
getroffen.
-
Der zweite Ansatz
[Klas:99]
konkateniert alle
Dokumente aus der Lernstichprobe, die einer Klasse
zugeordnet wurden, zu einem Gesamtdokument für diese Klasse.
Die so entstehenden Megadokumente werden indexiert.
Ein zu klassifizierendes Dokument wird wiederum als Anfrage
an die so erstellte Datenbank interpretiert; das
Megadokument, welches die größte Ähnlichkeit zu dem
Anfragedokument ausweist, wird zur
Klassifikationsentscheidung herangezogen.
Aufgabe dieser Diplomarbeit ist es, beide Ansätze miteinander
zu kombinieren. Darüberhinaus soll für die Klassifikation
zusätzliches Wissen berücksichtigt werden: meist sind die
vorgegebenen Klassifikationsschemata hierarchisch organisiert
(so auch Yahoo!). Wissen
über Beziehungen von Kategorien innerhalb eines solchen
Schemas soll für eine bessere Klassifikation ausgenutzt
werden.
Fertiger Text
-
Ingo Frommholz (2001).
-
Automatische Kategorisierung von Web-Dokumenten. Masterthesis
Literatur
-
Norbert Gövert; Mounia Lalmas; Norbert Fuhr (1999).
-
A probabilistic description-oriented approach for categorising Web documents. In CIKM:99
-
Yiming Yang (1994).
-
Expert Network: Effective and Efficent Learning from Human Decisions in Text Categorisation and Retrieval. In SIGIR:94
-
Claus-Peter Klas (1999).
-
Ein neuer, effektiver Ansatz zur Kategorisierung von Web Dokumenten. In: Proceedings ADI'99 (Agenten -- Datenbanken -- Information Retrieval)
|