Supervisor(s)

Student

Finished

2016-12

Formalia

Targeted audience
  • AI Master
Preconditions
  • Fähigkeit zum Lesen und Verstehen englischer wissenschaftlicher Publikationen
  • Fähigkeit und Interesse, sich in neue theoretische und praktische Aspekte einzuarbeiten
  • Erfahrung in der Programmierung mit Java (notwendig)
  • Vorlesung Information Retrieval oder Information Mining (hilfreich)

Task description

Unsere Forschungsgruppe beschäftigt sich mit Verfahren zur Vebesserung des interaktiven Retrieval. Als theoretische Grundlage für interaktives Suchen hat Prof. Norbert Fuhr das probabilistische Ranking-Prinzip für interaktives Information Retrieval (IPRP) formuliert [Fuhr:08] , welches mittlerweile als Standardmodel für die quantitative Modellierung von interaktivem Retrieval angesehen wird.

Auf Basis der IPRP haben wir gezeigt, wie wir mithilfe von Eyetracking- und Log-Daten einzelne kognitive Aktionen des Benutzers identifizieren können und darauf basierend ein Markov-Modell für das Benutzerverhalten erstellen können [Tran/Fuhr:12a] , [Tran/Fuhr:12b] , [Tran:12a] . In diesem Modell werden Zustände wie die Formulierung der Anfrage, das Betrachten eines Eintrags in der Ergebnisliste, das Anschauen eines Ergebnisdokumentes sowie das Platzieren relevanter Dokumente im 'basket' betrachtet. Neben den Übergangswahrscheinlichkeiten zwischen den einzelnen Zuständen ist zudem der zeitliche Aufwand für die einzelnen Aktionen dargestellt. Daraus ableitend können wir die Perfomance der Suche abschätzen und beispielweise zeigen, wann es für den Benutzer besser ist, die Query zu reformulieren, anstatt die Ergebnisliste weiter durchzuschauen.

Allerdings ist dieses Modell noch sehr beschränkt, weil es u.a. mit konstanten Wahrscheinlichkeiten arbeitet und viele wertevolle Details wie Nr. der Frageformulierung, Anzahl relevanter Dokumente ... nicht berüchsichtigt. Problematisch ist zudem die exponentiell gestiegene Zahl der Modellparameter, für deren Schätzung riesige Datenmengen benötigt würden, die nur in Ausnahmefällen verfügbar sind.

Daher sollen maschinelle Lernverfahren eingesetz werden , die auf der Basis der verfügbaren Beobachtungsdaten (retrieval status value, Rangposition, Nr. der Frageformulierung...) für beliebige Parameterkombinationen einen Vorhersagewert liefern. Mit der Kombination von Markov-Modell und Lernverfahren können dadurch Modelle mit tausenden von Zuständen behandelt werden.

Diese Idee soll mit Hilfe eines geeignen Data-Mining-Tools (wie z.B. RapidMiner ) umgesetzt werden.

Hierfür stehen umfangreiche Logdaten in Form von Systemlogs und Eye-tracking-Daten zur Verfügung.

Literature

N. Fuhr (2008).
A Probability Ranking Principle for Interactive Information Retrieval. Information Retrieval 11(3)
Vu T. Tran; Norbert Fuhr (2012).
Using Eye-Tracking with Dynamic Areas of Interest for Analyzing Interactive Information Retrieval. In The 35th International ACM SIGIR conference on research and development in Information Retrieval, SIGIR '12, Portland, OR, USA, August 12-16, 2012
Vu T. Tran; Norbert Fuhr (2012).
Quantitative Analysis of Search Sessions Enhanced by Gaze Tracking with Dynamic Areas of Interest. In: The International Conference on Theory and Practice of Digital Libraries 2012, Springer
Vu T. Tran (2012).
Interactive PRP-Based Analysis and Design of Interactive Information Retrieval Systems. In: TPDL Doctoral Consortium