Supervisor(s)

Student

Related projects

ezDL
ezDL is framework for interactive search systems

Finished

2012-10

Formalia

Targeted audience
  • DAI Hauptstudium
Preconditions
  • Gute Kenntnisse in Java (erforderlich)

Task description

EzDL ist ein agentenbasiertes, nutzerorientiertes Zugangssystem für verteilte, heterogene Digitale Bibliotheken auf der Basis von DAFFODIL. Mit ezDL können Benutzer Dokumente in verschiedenen Bibliotheken finden und verwalten und mittels strategisch unterstützenden Funktionen neue Erkenntnisse über den Gegenstand ihrer Suche gewinnen. Ein wichtiger Aspekt dabei ist die Analyse von Coautoren-Beziehungen – also die Analyse der Frage, wer mit wem zusammen publiziert hat. Autorengruppen haben i.d.R. gemeinsame Interessen – ein Fakt, den man bei der explorativen Suche gerne nutzt.

Namen von Personen in Digitalen Bibliotheken können aber in verschiedenen Formaten aufreten, was die Erstellung von Coautoren-Netzwerken und anderen Analysen erschwert. Der Autor Norbert Fuhr kann beispielsweise auf die folgenden Arten repräsentiert werden:

Auch Umlaute oder andere diakritische Zeichen bilden ein Problem, da manche Datenbanken sie beibehalten, andere aber entfernen oder (im Fall von Umlauten) durch Ersatzzeichen darstellen (Mueller oder Muller statt Müller). Autoren können auch unter Varianten ihres Namens publizieren, die nicht immer leicht als solche zu erkennen sind; ein Beispiel ist C. J. van Rijsbergen und Keith van Rijsbergen.

Unterschiedliche für Namen verwendete Schriftsprachen, die bei der Erstellung einer Literaturdatenbank auf ein einheitliches Schriftsystem abgebildet werden (meist das lateinische) verursachen zusätzliche Ambiguitäten. Für das Kyrillische etwa existieren zahlreiche unterschiedliche Transkriptionssysteme abhängig von der Landessprache der Datenbank, von denen noch Transliterationssysteme zu unterscheiden sind. Für das Japanische gibt es – je nach Zählweise – etwa vier verschiedene Systeme, wie die nicht alphabetische Schrift mit lateinischen Zeichen dargestellt werden kann. Ein japanischer Autor könnte in westlichen Publikationen unter den Namen "Fujitsû", "Huzitû" oder "Fujitsuu" auftreten.

Eine automatische Trennung von Vor- und Nachnamen von Autoren ist für einige Zwecke vorteilhaft (z.B. um zu erkennen, wann es sich bei zwei Autoren um die gleiche Person handelt). Allerdings sind Vor- und Nachnamen ein kulturell spezifisches Konzept mit vielen Variationen (spanische Autoren haben z.B. zwei Namen, ein Patronym und ein Matronym, verwenden aber meist nur den ersten der Nachnamen). Auch die Reihenfolge steht nicht fest; asiatische Sprachen nennen oft den Familiennamen zuerst (aber manche Datenbanken oder Autoren verwenden auch die westliche Reihenfolge von Vorname Nachname). Die beiden Bücher Hard-boiled Wonderland und das Ende der Welt und Kafka am Strand stammen von demselben Autor, obwohl auf dem Buchcover die Namensreihenfolge verschieden ist.

Schließlich kann bei Autorennamen auch das umbekehrte Problem auftreten: unterschiedliche Personen, die denselben Namen haben. Namensgleichheiten sind insbesondere bei autorenzentrischen Suchen problematisch. Besonders schwierig wird dieses Problem, wenn nicht Menschen die Ergebnisse beurteilen, sondern diese von einem automatischen Verfahren verwendet werden. Ein Algorithmus zur Erzeugung von Koautoren-Netzwerken läuft Gefahr, unterschiedliche Netzwerke über vermeintlich identische Autoren zusammenzuführen.

Im Rahmen der Arbeit soll zunächst ein Rahmenmodell für die angesprochene Problematik konzipiert und dann für einzelne der aufgeführten Aspekte geeignete Teillösungen realisiert werden, um mit Unsicherheiten im Bezug auf Autorennamen in digitalen Bibliotheken umgehen zu können. Dies können systemorientierte Ansätze sein, um automatisch zu erkennen, wenn zwei unterschiedliche Schreibweise einen Autoren behandeln, oder benutzerorientierte Ansätze zur Unterstützung bei der Anfrageformulierung. Hybride Lösungsmethoden könnten systembasierte Konzepte mit durch Benutzer vorgenommene Disambiguierung oder Zusammenführung von Autoren vereinen.

Literature

Michael Damatov (2004).
DAFFODIL: Entwicklung und Evaluierung von Algorithmen zur Behandlung von Autorennamen. Diplomarbeit
Dag W. Aksnes
When different persons have an identical author name. How frequent are homonyms? , JASIST Vol. 59(5), pp. 838-841, 2008
Christof Monz, Wouter Weerkamp
A comparison of retrieval-based hierarchical clustering approaches to person name disambiguation , SIGIR 2009
Minoru Yoshida et al.
Person name disambiguation by bootstrapping , SIGIR 2010
Ciriaco Andrea D'Angelo, Cristiano Giuffrida, Giovanni Abramo
A heuristic approach to author name disambiguation in bibliometrics databases for large-scale research assessments , JASIST Vol. 62(2), pp. 257-269, 2011
Ricardo G. Cota et al.
An unsupervised heuristic-based hierarchical method for name disambiguation in bibliographic citations , JASIST Vol. 61(9), pp. 1853-1870, 2010
Vetle I. Torvik, Neil R. Smalheiser
Author name disambiguation in MEDLINE , TKDD Vol. 3(3), pp. 11:1--11:29, 2009
Deutsche National-Bibliothek
Personennamendatei