Supervisor(s)

Student

Finished

1998-06

Task description

Bei WWW-Katalogen im Internet wird eine redaktionelle Einordnung von Seiten (bzw. der entsprechenden Hyperlinks) in inhaltliche Kategorien vorgenommen.

HTML-Seiten weisen nun abgesehen vom eigentlichen Inhalt (Text) noch Spezifika auf, die allein dadurch gegeben sind, daß es sich um HTML und nicht um ein anderes Textformat handelt. Von daher ergibt sich folgende Frage, die näher untersucht werden soll :

Können HTML-spezifische Merkmale zu einer Kategorisierung von WWW-Seiten beitragen ?

Aufbauend auf einer Kollektion von kategorisierten HTML-Dokumenten werden HTML-spezifische Merkmale definiert, die bei zwei verschiedenen Kategorisierungsverfahren (kNN und SVM) beispielhaft Verwendung finden sollen. Dabei wird jeweils ein Vergleich der Kategorisierungsqualität ohne und mit Hinzunahme dieser neuartigen Merkmale gezogen.

Dabei geht es ausdrücklich nicht darum, optimale Kategorisierer für diesen Zweck zu entwerfen. Vielmehr sollen prinzipielle Möglichkeiten und Vorgehensweisen, sowie Probleme beim Herangehen und Realisieren einer solchen Aufgabe aufgezeigt und analysiert werden. Einen Schwerpunkt bildet die Definition der HTML-spezifischen Merkmale.