 |
Offene Diplomarbeit:
Probabilistische, beschreibungsorientierte Ansätze zur Diskussionssuche
|
 |
Betreuer
Verwandte Projekte
-
DAFFODIL
-
Nutzerorientiertes Zugangssystem für heterogene Digitale
Bibliotheken
Formalia
- Zielgruppe
-
- DAI Hauptstudium: Bereich "D"
- Voraussetzungen
-
- Fähigkeit im Lesen und Verstehen
englischer wissenschaftlicher Publikationen
(absolut notwendig)
- Fähigkeit und Interesse, sich in neue
theoretische und praktische Aspekte einzuarbeiten
- Vorlesung Information Retrieval
- Erfahrung in der Programmierung (absolut notwendig, bevorzugt Java)
Aufgabenstellung
Viele Informationssysteme bieten heutzutage die Möglichkeit, Themen
mittels elektronischer Medien zu diskutieren. Klassische Formen solcher
Diskussionsmöglichkeiten sind Email-Diskussionen, Newsgroup-Postings, aber
auch webbasierte Foren, die z.B. den Inhalt eines Artikels diskutieren. Im
Bereich der Digitalen Bibliotheken (DB) gibt es den Trend, das in der DB
verwaltete Material zu interpretieren und somit neue Erkenntnisse zu
gewinnen. Dementsprechend beschäftigt sich die Diskussionssuche mit dem
Auffinden zu einer Anfrage relevanter neuer Kommentare.
In dieser Diplomarbeit sollen nun probabilistische,
beschreibungsorientierte Ansätze
[Fuhr/Buckley:91]
[Goevert/etal:99]
[Frommholz:01]
zur Diskussionssuche
angewandt und evaluiert werden. Bei diesen Ansätzen werden
Termeigenschaften (z.B. das Auftauchen eines Terms im Titel) benutzt,
um mittels statistischer Methoden die Parameter einer
Indexierungsfunktion zu lernen. Im Gegensatz zu bereits existierenden
Ansätzen (siehe auch
[Xi/etal:04]
) soll ein besonderes
Augenmerk auf so genannte Highlight und Context Quotation
[Frommholz:05]
gelegt werden; das Auftauchen eines Terms in einer
Highlight oder Context Quotations sind dabei Eigenschaften dieses
Terms. Als Testkollektion steht ein Ausschnitt aus diversen
Diskussionslisten des World Wide Web-Konsortiums (W3C) mit Anfragen
und Relevanzurteilen zur Verfügung, wie sie im Enterprise Track
der Evaluierungsinitative TREC
[TREC:05]
benutzt
wurden.
Die Diplomarbeit umfasst folgende Schritte:
- Aufarbeitung der Literatur
- Definition geeigneter Eigenschaften (Features), z.B. Vorkommen
eines Terms in Highlight und Context Quotations
- Anwenden linearer und logistischer Regression sowie
Support Vector
Machines
[Joachims:98]
zur Ermittlung einer
Indexierungsfunktion
- Evaluierung der Verfahren anhand der vorhandenen W3C
Diskussionslisten gegenüber einer geeigneten Baseline.
Das zu erstellende Softwarepaket zur linearen und logistischen Regression
soll gut dokumentiert und später auf andere Kollektionen und Featuremengen
einsetzbar sein.
Literatur
-
N. Fuhr; C. Buckley (1991).
-
A Probabilistic Learning Approach for Document Indexing. ACM Transactions on Information Systems 9(3)
-
Norbert Gövert; Mounia Lalmas; Norbert Fuhr (1999).
-
A probabilistic description-oriented approach for categorising Web documents. In CIKM:99
-
Ingo Frommholz (2001).
-
Automatische Kategorisierung von Web-Dokumenten. Masterthesis
-
Wensi Xi; Jesper Lind; Eric Brill (2004).
-
Learning Effective Ranking Functions for Newsgroup Search. In SIGIR:04
-
Ingo Frommholz (2005).
-
Applying the Annotation View on Messages for Discussion Search. In TREC:05
-
E. M. Voorhees; Lori P. Buckland (Hrsg.) (2005).
-
The Fourteenth Text REtrieval Conference (TREC 2005). NIST, Gaithersburg, MD, USA.
-
Thorsten Joachims (1998).
-
Text categorization with support vector machines: learning with many relevant features. In: Claire N\'edellec; C\'eline Rouveirol (Hrsg.): Proceedings of ECML-98, 10th European Conference on Machine Learning. Springer, Heidelberg et al..
|