Supervisor(s)

Student

Related projects

RSNSR
Rule-Based Search in Text Data Bases with Nonstandard Spelling

Finished

2010-07

Formalia

Preconditions
  • Erfahrung in der Programmierung mit Java (absolut notwendig)
  • Java-Swing
  • Erfahrungen in UI-Design wären von Vorteil
  • Vorlesung Datenbanken oder Information Retrieval (notwendig)
  • Fähigkeit im Lesen und Verstehen englischer wissenschaftlicher Publikationen (notwendig)

Task description

Die deutsche Rechtschreibung wurde erst im Jahre 1901 vereinheitlicht. Durch die Abweichung von der aktuellen Standardschreibung sind historische Dokumente, oft nur schwer zu finden. Im Rahmen des Projektes RSNSR wird eine Suchmaschine zur Unterstützung der Suche in historischen Dokumenten entwickelt. Hierbei werden für den Suchbegriff zunächst die Flexionsformen in der Wortschatz-Datenbank nachgeschlagen. Diese werden anschließend mit automatisch generierten Regeln auf die entsprechenden Schreibvarianten abgebildet und die Suchanfrage entsprechend erweitert.

Sowohl die Schreibweisen als auch die Regeln sind zeit- und ortsabhängig. Dadurch müssen die Regeln jeweils an neue Korpora angepasst werden. Der Benutzer soll dabei auch die Gelegenheit bekommen, Regeln zu erstellen und zu bearbeiten. Zur Unterstützung dieses Prozesses sollen Modifikationsmöglichkeiten von Regeln visualisiert und prototypisch implementiert werden. Dabei soll der Benutzer keine Programmierkenntnisse benötigen, um die Regeln zu ändern. Zur Regelmodifikation und -visualisierung sollen geeignete Toolkits wie z. B. Prefuse eingesetzt werden.

Die Diplomarbeit umfasst insbesondere folgende Aspekte:

Result text

Dennis Korbar (2010).
Visualisierung von Regelstrukturen und -Modifikationsmöglichkeiten für die Suche in Texten mit nicht-standardisierter Rechtschreibung. Diplomarbeit

Literature

Andrea Ernst-Gerlach; Norbert Fuhr (2007)
Retrieval in text collections with historic spelling using linguistic and spelling variants