Supervisor(s)

Student

Finished

2015-11

Formalia

Targeted audience
  • ISE Master
  • AI Master
Preconditions
  • Programmierung mit Java(-Script)
  • Vorlesung "Information Retrieval" bzw. "Internetsuchmaschinen" (wünschenswert)

Task description

Aktuelle Websuchmaschinen bieten keine Übersicht über die gefundene Ergebnismenge an, so dass die Nutzer sich die Liste anfrageabhängiger Auszüge (Snippets) zu allen gezeigten Suchergebnissen oder gar die Dokumente selbst anschauen müssen, um einen Überblick zu gewinnen und daraus Anregungen für eine Präzisierung ihrer Anfrage zu gewinnen.

Die Suche ist damit für den Benutzer komplizierter als notwendig, da keine Unterstützung durch das System gewährt wird. Wie erfolgreich eine solche gezielte Unterstützung eingesetzt werden kann, zeigt das jedoch das Beispiel der proaktiven Suchvorschläge (Query Suggestions). Dieser Mechanismus wurde ebenfalls zuerst in Forschungsarbeiten am Lehrstuhl erprobt und ist heute Standard in der Websuche.

Um eine Übersicht der aktuellen Ergebnismenge darzustellen, müssten Suchmaschinen allerdings ihren Funktionsumfang erweitern. Zur Zeit erfolgt keine Auswertung bezüglich der eigentliche Inhalte der Snippets. Insbesondere findet keine Erkennung von sogenannten Entitäten statt. Entitäten können etwa Personen, Firmen, Ort-, Datum- und Zeitangaben sein. Eine solche Erkennung wäre aber hilfreich, um Aussagen über die Zusammensetzung und thematischen Schwerpunkte der Ergebnismenge zu treffen. Mit einer automatischen Erkennung und Extraktion ließe sich ein Vorschlagssystem realisieren, welches die tatsächliche Suchsituation mit einbezieht.

Apache Stanbol (https://stanbol.apache.org/index.html) ist ein System, um eine solche Extraktion von Entitäten für die Englische Sprache durchzuführen. Zuerst wird eine Named Entity Recoqnition durchgeführt. Dieser Schritt umfasst das Durchsuchen eines Textes und die Erkennung von Entitäten in diesem. Die ermittelten Entitäten werden im zweiten Schritt auf ein kontrolliertes Vokabular abgebildet, das sogenannte Entity Linking. Hierfür kann z.B. DBPedia verwendet werden. Für das Deutsche fehlt allerdings dieser zweite Schritt bisher.

Im Rahmen dieser Arbeit soll ein Framework entwickelt werden, um automatisch Entitäten auf Webseiten zu erkennen und zu extrahieren. Um das Vorhaben zu realisieren, soll eine Erweiterung für Stanbol implementiert werden. Die deutsche Variante der DBPedia kann dafür als Datenquelle für das Entity Linking dienen. Die erweiterte Stanbol Version ist dann als Webservice bereitzustellen und abschließend an die Bing-API anzuschließen. Für den letzten Schritt kann auf einen sogenannten Such-Proxy zurückgegriffen werden, welcher am Lehrstuhl bereits vorhanden ist.

Die Abschlussarbeit umfasst also folgende Schritte: