Universität Duisburg-Essen
Startseite Arbeitsgruppe Informationsysteme

Open diploma thesis: Probabilistische, beschreibungsorientierte Ansätze zur Diskussionssuche

Supervisor(s)

    Formalia

    Targeted audience
    • DAI Hauptstudium: Bereich "D"
    Preconditions
    • Fähigkeit im Lesen und Verstehen englischer wissenschaftlicher Publikationen (absolut notwendig)
    • Fähigkeit und Interesse, sich in neue theoretische und praktische Aspekte einzuarbeiten
    • Vorlesung Information Retrieval
    • Erfahrung in der Programmierung (absolut notwendig, bevorzugt Java)

    Task description

    Viele Informationssysteme bieten heutzutage die Möglichkeit, Themen mittels elektronischer Medien zu diskutieren. Klassische Formen solcher Diskussionsmöglichkeiten sind Email-Diskussionen, Newsgroup-Postings, aber auch webbasierte Foren, die z.B. den Inhalt eines Artikels diskutieren. Im Bereich der Digitalen Bibliotheken (DB) gibt es den Trend, das in der DB verwaltete Material zu interpretieren und somit neue Erkenntnisse zu gewinnen. Dementsprechend beschäftigt sich die Diskussionssuche mit dem Auffinden zu einer Anfrage relevanter neuer Kommentare.

    In dieser Diplomarbeit sollen nun probabilistische, beschreibungsorientierte Ansätze [Fuhr/Buckley:91] [Goevert/etal:99] [Frommholz:01] zur Diskussionssuche angewandt und evaluiert werden. Bei diesen Ansätzen werden Termeigenschaften (z.B. das Auftauchen eines Terms im Titel) benutzt, um mittels statistischer Methoden die Parameter einer Indexierungsfunktion zu lernen. Im Gegensatz zu bereits existierenden Ansätzen (siehe auch [Xi/etal:04] ) soll ein besonderes Augenmerk auf so genannte Highlight und Context Quotation [Frommholz:05] gelegt werden; das Auftauchen eines Terms in einer Highlight oder Context Quotations sind dabei Eigenschaften dieses Terms. Als Testkollektion steht ein Ausschnitt aus diversen Diskussionslisten des World Wide Web-Konsortiums (W3C) mit Anfragen und Relevanzurteilen zur Verfügung, wie sie im Enterprise Track der Evaluierungsinitative TREC [TREC:05] benutzt wurden.

    Die Diplomarbeit umfasst folgende Schritte:

    • Aufarbeitung der Literatur
    • Definition geeigneter Eigenschaften (Features), z.B. Vorkommen eines Terms in Highlight und Context Quotations
    • Anwenden linearer und logistischer Regression sowie Support Vector Machines [Joachims:98] zur Ermittlung einer Indexierungsfunktion
    • Evaluierung der Verfahren anhand der vorhandenen W3C Diskussionslisten gegenüber einer geeigneten Baseline.

    Das zu erstellende Softwarepaket zur linearen und logistischen Regression soll gut dokumentiert und später auf andere Kollektionen und Featuremengen einsetzbar sein.

    Literature

    N. Fuhr; C. Buckley (1991).
    A Probabilistic Learning Approach for Document Indexing. ACM Transactions on Information Systems 9(3)

    Norbert Gövert; Mounia Lalmas; Norbert Fuhr (1999).
    A probabilistic description-oriented approach for categorising Web documents. In CIKM:99

    Ingo Frommholz (2001).
    Automatische Kategorisierung von Web-Dokumenten. Masterthesis

    Wensi Xi; Jesper Lind; Eric Brill (2004).
    Learning Effective Ranking Functions for Newsgroup Search. In SIGIR:04

    Ingo Frommholz (2005).
    Applying the Annotation View on Messages for Discussion Search. In TREC:05

    E. M. Voorhees; Lori P. Buckland (eds.) (2005).
    The Fourteenth Text REtrieval Conference (TREC 2005). NIST, Gaithersburg, MD, USA.

    Thorsten Joachims (1998).
    Text categorization with support vector machines: learning with many relevant features. In: Claire N\'edellec; C\'eline Rouveirol (eds.): Proceedings of ECML-98, 10th European Conference on Machine Learning. Springer, Heidelberg et al..