Supervisor(s)

Student

Related projects

RSNSR
Rule-Based Search in Text Data Bases with Nonstandard Spelling

Finished

2011-07

Formalia

Preconditions
  • JavaScript Kenntnisse (notwendig)
  • Java Kenntnisse (notwendig)

Task description

Die deutsche Rechtschreibung wurde erst im Jahre 1901 vereinheitlicht. Durch die Abweichung von der aktuellen Standardschreibung sind historische Dokumente, oft nur schwer zu finden. Im Rahmen des Projektes RSNSR wird eine Suchmaschine zur Unterstützung der Suche in historischen Dokumenten entwickelt. Hierbei werden für den Suchbegriff zunächst die Flexionsformen in der Wortschatz-Datenbank nachgeschlagen. Diese werden anschließend mit automatisch generierten Regeln auf die entsprechenden Schreibvarianten abgebildet und die Suchanfrage entsprechend erweitert. Auf diese Weise wird z. B. aus dem Suchbegriff "Tür" zunächst die Flexionsform "Türen" gebildet. Daraus wird wiederum die historische Form "Thueren" generiert.

In dieser Arbeit soll nun gezeigt werden, das sich der Ansatz auch für die Google-Buchsuche anwenden lässt.

Konkret sollen in der Abschlussarbeit

Da sowohl die Schreibweisen als auch die Regeln sind zeit- und ortsabhängig sind, sollen dabei je nach Zeit und Sprache unterschiedliche Regelsätze eingesetzt werden

Literature

Andrea Ernst-Gerlach; Norbert Fuhr (2006).
Generating Search Term Variants for Text Collections with Historic Spellings. In 28th European Conference on Information Retrieval Research (ECIR 2006)
Andrea Ernst-Gerlach (2007).
Retrieval in Text Collections with Historic Spelling Using Linguistic and Spelling Variants. Talk at the ACM IEEE Joint Conference on Digital libraries, Vancouver, Canada
Marcel Awasum (2008).
Vorschläge für Google-Suchen als Firefox-Erweiterung. Bachelorarbeit