 | RSNSR |  |
Regelbasierte Suche in Textdatenbanken mit nichtstandardisierter Rechtschreibung
- Projektzeitraum:
-
Vom 1.
1.
2005
bis zum 31.
03.
2010
- Kontaktpersonen:
- Beteiligte Personen:
- Gesponsert von:
- Referenznummer:
- DFG: FU 205/18-1, FU 205/18-3
- UDE: 15311525 (ka00043e, ka00043g)
- Teilnehmende Institutionen:
Im Kontext eines Digitalisierungsprojekts zur Nietzsche-Rezeption
aus den Jahren 1865 - 1945, das seit mehreren Jahren in Duisburg in
Zusammenarbeit mit dem Nietzsche-Kolleg in Weimar verfolgt wird,
beschäftigt sich das RSNSR-Projekt mit der Erforschung und Entwicklung
eines linguistischen Regelsystems, einer Transformationsmethodik und
zeitabhängiger Filter zur Unterstützung der Suche in Textdokumenten in
nichtstandardisierter Rechtschreibung.
Es wurde bereits eine Suchmaschine erstellt, welche es durch einen
neu entwickelten phonetischen Regelsatz ermöglicht, auf Texten, die
mehrere hundert Jahre vor der Rechtschreibvereinheitlichung des Jahres
1901 verfasst wurden, eine Suche mittels orthographisch genormter
Schlagwörter durchzuführen. Durch Einführung eines Abstandsbegriffs
sind verschiedene Stufen der Ähnlichkeit realisiert. Die Suchmaschine
ist in das online-verfügbare HTML-basierte Nietzsche-Archiv
integriert.
Im Einzelnen verfolgt unser Projekt RSNSR die folgenden Ziele:
- Entwicklung von Zeit- und Ortfiltern für phonetische
Regeln, Revision der Regeln aus der Textbasis und aus
statistischen Analysen, Vergleich des Wörterbuch- mit dem
regelbasierten Ansatz, Nutzung eines Kontrollwörterbuchs gegen
Homonymhäufung.
- Entwicklung eines neuen adäquaten Abstandsbegriffs auf der
Basis eines modifizierten graphematischen und phonetischen
Levenshtein-Ähnlichkeitsmaßes, Berücksichtigung typischer
Erfassungsfehler, Entwicklung von Unschärfeskalen.
- Integration der Suchmaschinen in das Nietzsche Projekt und
in andere Systeme, Entwicklung von Regelsätzen und Erweiterung
der Suchmaschine auf (früh-)neuhochdeutsche Archive.
Publikationen- Thomas Pilz; Andrea Ernst-Gerlach; Sebastian Kempken; Paul Rayson; Dawn Archer (2008).
- The Identification of Spelling Variants in English and German Historical Texts: Manual or Automatic?. Literary and Linguistic Computing 23(1)
- Andrea Ernst-Gerlach; Norbert Fuhr (2007).
- Retrieval in text collections with historic spelling using linguistic and spelling variants. In JCDL:07
- Dawn Archer; Andrea Ernst-Gerlach; Sebastian Kempken; Thomas Pilz; Paul Rayson (2006).
- The identification of spelling variants in English and German historical texts: manual or automatic?. In DH:06
- Andrea Ernst-Gerlach; Norbert Fuhr (2006).
- Generating Search Term Variants for Text Collections with Historic Spellings. In ECIR:06
- Thomas Pilz; Wolfram Luther; Ulrich Ammon; Norbert Fuhr (2005).
- Rule-based search in text databases with non standard orthography. In ACH/ALLC:05
Vorträge- Andrea Ernst-Gerlach (2007).
- Retrieval in Text Collections with Historic Spelling Using Linguistic and Spelling Variants. Talk at the ACM IEEE Joint Conference on Digital libraries, Vancouver, Canada
- Andrea Ernst-Gerlach (2006).
- Generating Search Term Variants for Text Collections with Historic Spelling. Talk at the European Conference on Information Retrieval, London, U.K.
- Andrea Ernst-Gerlach (2006).
- Retrieval in Text Collections with Historic Spelling. Talk at the Dagstuhl Seminar 'Digital Historical Corpora', Wadern, Germany
- Andrea Ernst-Gerlach; Thomas Pilz (2006).
- Search methods for documents in non-standard spelling. Talk at the Workshop on Historical Text Mining, Lancaster, U.K.
- Andrea Ernst-Gerlach; Thomas Pilz (2005).
- RSNSR: Rule based search in text databases with nonstandard orthography. Talk at Lancaster University, Lancaster, U.K.
- Andrea Ernst-Gerlach; Thomas Pilz (2005).
- RSNSR: Rule based search in text databases with nonstandard orthography. Talk at the University of Central Lancashire, Preston, U.K
Diplom-, Master- und Bachelorarbeiten-
Unscharfe Suche in Patentdatenbanken
- Offene Bachelorarbeit
-
Suche nach Komposita in Texten mit nicht standardisierter Rechtschreibung
- Offene Bachelorarbeit
-
Visualisierung von Regelmodifikationsmöglichkeiten für die Suche in Texten mit nicht-standardisierter Rechtschreibung
- Reservierte Masterarbeit
-
Entwicklung eines User Interface für die interaktive Regelerstellung
- Reservierte Masterarbeit
|