Supervisor(s)

Student

Finished

2014-09

Formalia

Targeted audience
  • AI Bachelor
  • Komedia Bachelor
Preconditions
  • Vorlesungen Internetsuchmaschinen oder Sprachtechnologie
  • Programmierkenntnisse

Task description

Bei der Suche im Web nach Kontaktdaten von Personen werden die einschlägigen Suchmaschinen (z.B. Google) häufig verwendet, da viele Personen eigene Webseiten betreiben oder ihre Kontaktdaten auf der Webseite ihrer Organisation (z.B. Unternehmen, Universität) veröffentlicht sind. Jedoch bieten Websuchmaschinen keine spezielle Unterstützung für solche Art von Suchaufgaben an. Beispielsweise zeigt das Snippet in der Ergebnisliste die Wörter der Suchanfrage (z.B. "manfred mustermann telefon") und ihren Kontext, aber die eigentlich gesuchten Kontaktdaten sind dort häufig nicht (vollständig) vorhanden oder sind nicht besonders gekennzeichnet. In diesen Fällen muss der Benutzer die einzelnen Webseiten direkt aufrufen und dort nach den gewünschten Informationen suchen.

Im Rahmen dieser Abschlussarbeit sollen mit Informationsextraktionsverfahren die Kontaktdaten von Personen (z.B. Telefonnummer oder E-Mail-Adresse) aus Webseiten erkannt und extrahiert werden, damit sie bei der Suche direkt in den Ergebnislistensnippets angezeigt werden. Abschließend soll in einer Evaluierung die Qualität der entwickelten Lösung untersucht und mit einer existierenden Websuchmaschine verglichen werden.

Diese Abschlussarbeit umfasst also die folgenden Schritte:

Literature

Sunita Sarawagi (2008).
Information Extraction. , Now Publishers