Universität Duisburg-Essen
Startseite Arbeitsgruppe Informationsysteme

CAIR

Semantische Clusteranalyse im Information Retrieval


Projektzeitraum:
Vom 01. 07. 2009 bis zum 31. 06. 2011
Kontaktpersonen:
Gesponsert von:
  • DFG
Referenznummer:
  • DFG: FU 205/22-1
  • UDE: ka00043j
Teilnehmende Institutionen:

Clusteranalyseverfahren kombinieren ein Objektmodell, ein Ähnlichkeitsmaß und ein Fusionierungsprinzip, wobei der Fokus aktueller Forschung auf der Fusionierung liegt.

Bei anspruchsvollen Problemen kann Clusteranalyse nur erfolgreich sein, wenn die drei Elemente aufeinander abgestimmt sind und Wissen sowohl über die Analyseaufgabe als auch den Nutzer berücksichtigen. Dieses Prinzip einer "semantischen Clusteranalyse" hat das Potenzial, für relevante Probleme des Information Retrieval (IR) effizientere und qualitativ bessere Lösungen als existierende Technologie zu produzieren, ist bislang aber nicht systematisch untersucht worden.

Ziel unseres Vorhabens ist die theoretische, methodische und experimentelle Erforschung dieses Prinzips im IR. "Semantik" wird dabei in mehrfacher Weise eine Rolle spielen:

  1. in der Form von spezialisierten Retrievalmodellen, die Wissen über die IR-Aufgabe beinhalten,
  2. durch Integration von Wissen aus dem zu analysierenden Gegenstandsbereich,
  3. als "Ensemble-Clusteranalyse", der kombinierten Anwendung von Fusionierungsprinzipien,
  4. durch den Nutzer bei der Multi- und der interaktiven Clusteranalyse.

Gleichzeitig schafft die Integration von Semantik eine Grundlage zur automatischen Benennung von Clustern - eine der größten Schwachstellen der Clusteranalyse überhaupt.