Supervisor(s)

Student

Formalia

Targeted audience
  • AI Master

Task description

Sozialwissenschaftliche Daten (d.h. sehr häufig Daten aus Bevölkerungsumfragen) werden durch die Primärforscher in Repositorien gespeichert, um von anderen Forschern (sogen. Sekundärnutzern) für eigene Forschungsprojekte verwendet zu werden. Die Kataloge der Repositorien müssen die Nutzer bei der Suche nach existierenden Forschungsdaten unterstützen. Dafür werden die Datensätze nach Inhalten kategorisiert. Da viele sozialwissenschaftliche Studien mehrere Themen erfassen, ist in der Regel eine Zuordnung zu mehreren Kategorien notwendig. Bislang wird die Kategorisierung von Datensätzen manuell durchgeführt. Grundlage dafür ist die Sichtung der Studienmaterialen (Fragebögen, Methodenberichte, Studienbeschreibungen) durch qualifiziertes Personal (vergleichbar den Fachreferenten in wissenschaftlichen Bibliotheken). Dieser Prozess soll durch eine semi-automatische Kategorisierung der Datensätze technisch unterstützt werden, um die Kategorisierung in den Repositorien effizienter zu gestalten. Für die semiautomatische Kategorisierung von sozialwissenschaftlichen Datensätzen ist vorgegeben:

Ein (automatischer) Klassifikator lernt anhand des Schemas und der Lernstichprobe, wie neue (noch nicht klassifizierte) Dokumente in das Schema einzuordnen sind.

Der Ansatz [Klas:99] konkateniert alle Dokumente aus der Lernstichprobe, die einer Klasse zugeordnet wurden, zu einem Gesamtdokument für diese Klasse. Die so entstehenden Megadokumente werden indexiert. Ein zu klassifizierendes Dokument wird wiederum als Anfrage an die so erstellte Datenbank interpretiert; das Megadokument, welches die größte Ähnlichkeit zu dem Anfragedokument ausweist, wird zur Klassifikationsentscheidung herangezogen.

Aufgabe dieser Abschlussarbeit ist es, den Ansatz für in der GESIS vorhandene Forschungsdaten zu adaptieren. Konkret soll zunächst der State-of-the-Art aufgearbeitet werden, also welche Verfahren sich für die Klassifikation von Publikationen und Forschungsdaten als erfolgreich herausgestellt haben und welche Ansätze diese verfolgen. Anschließend soll der obige Ansatz bzw. die Evaluationsumgebung mit aktuellen Werkzeugen neu implementiert werden und anhand der GESIS Kollektion gegen bestehende Verfahren als Baseline gemessen werden. Zudem soll ein prototypisches Portal auf Basis von Vaadin implementiert werden, um Kuratoren bei der semi-automatischen Klassifikation von Forschungsdaten zu unterstützen.

Literature

Norbert Gövert; Mounia Lalmas; Norbert Fuhr (1999).
A probabilistic description-oriented approach for categorising Web documents. In Proceedings of the Eighth International Conference on Information and Knowledge Management
Yiming Yang (1994).
Expert Network: Effective and Efficent Learning from Human Decisions in Text Categorisation and Retrieval. In Proceedings of the Seventeenth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval
Claus-Peter Klas (1999).
Ein neuer, effektiver Ansatz zur Kategorisierung von Web Dokumenten. In: Proceedings ADI'99 (Agenten -- Datenbanken -- Information Retrieval)
Ingo Frommholz (2001).
Automatische Kategorisierung von Web-Dokumenten. Diplomarbeit