 |
Finished diploma thesis:
DAFFODIL: Entwicklung und Evaluierung von Algorithmen zur
Behandlung von Autorennamen.
|
 |
Supervisor(s)
Student
Related projects
-
DAFFODIL
-
Distributed Agents for User-Friendly Access of Digital Libraries
Finished
2004-12
Task description
DAFFODIL (Distributed Agents for User-Friendly Access of
Digital Libraries) stellt ein agentenbasiertes Zugangssystem für
digitale Bibliotheken dar. Ein Schwerpunkt des Projektes
besteht in der Entwicklung höherer Suchfunktionen, die über
das herkömmliche Dokumentretrieval hinausgehen, indem die
Datenstrukturen einer bestimmten Domäne voll ausgeschöpft
werden. Ein Beispiel hierfür sind Suchdienste, die auf
Ko-Autoren-Netzwerken aufsetzen, die über die Grenzen
einzelner Dokumente und auch digitaler Bibliotheken hinweg
propagiert werden.
Um Autoren(namen) zu komplexeren informationsverdichtenden
Strukturen (z.B. einem Autorennetzwerk) hochzuaggregieren
muss die Identität der Autoren auf Basis der
Namensansetzungen in den darunterliegenden Dokumenten
sichergestellt werden. Das Problem ist nicht nur
syntaktischer Art, z.B.
- falsch geschrieben Namen
- Vornamenskürzeln
- Umlauten und Sonderzeichen in Namen
sondern auch semantischer Natur. Zu nennen sind hier
insbesondere das Synonymen-Problem, d.h. zwei unterschiedliche
Namensansetzungen bezeichnen ein und denselben Autor, wie
z.B. bei Namensänderungen durch z.B. Heirat oder auch
Pseudonymnutzung, und das Homonymen-Problem, d.h. ein Name
repräsentiert zwei unterschiedliche Autoren.
Einige Beispiele für die Namensproblematik sind:
- Thomas Rölleke vs. Thomas Roelleke
- Fuhr, N. vs. Norbert Fuhr
- Matthias Müller vs. Matthias Müller
- C. J. van Rijsbergen vs. Keith van Rijsbergen
Im Rahmen dieser Diplomarbeit sollen basierend auf den von
Daffodil angebotenen Funktionen Dienste und Algorithmen zur eindeutigen
Erkennung von Autorenobjekten entwickelt werden. Ziel ist es,
sowohl die syntaktische als auch die semantische Heterogenität
im Umgang mit Autorennamen in digitalen Bibliotheken zu
überwinden.
Dabei sind für folgende Probleme in der Diplomarbeit Lösungen
zu erarbeiten:
- Erarbeitung eines State-of-the-Art bei der Autorennamen Erkennung.
- Suchen und Auswählen von Algorithmen wie Soundex und
lDistance zur Lösung von einfachen Problemen wie
Falschschreibung und Sonderzeichen in
Autorennamen. Speziell hier kann Informationsgewinn aus
den unterschiedliche erfassten Daten der Dokumente aus
verschiedenen Digitalen Bibliotheken genutzt werden.
- Ausnutzung verschiedenen Beziehungen, wie semantischer
Ähnlichkeit (ähnliche Dokumentinhalte) als auch strukturelle
Ähnlichkeit von Autoren und Ko-Autoren oder Referenzen.
Result text
-
Michael Damatov (2004).
-
DAFFODIL: Entwicklung und Evaluierung von Algorithmen zur Behandlung von Autorennamen. Masterthesis
Literature
Fuhr, N.; Gövert, N.; Klas, C.-P. (2000): An Agent-Based
Architecture for Supporting High-Level Search Activities
in Federated Digital Libraries
Mutschke, Peter (2001): Enhancing Information Retrieval in
Federated Bibliographic Data Sources Using Author Network
Based Stratagems
Klas, Claus-Peter (2001): A sensor model for enabling
pro-activity and adaptivity in Daffodil
|