 |
MIND
|  |

Auswahl geeigneter Datenbanken und Kombination der
Retrievalergebnisse für multimediale internationale digitale
Bibliotheken
- Projektzeitraum:
-
Vom 01.
02.
2001
bis zum 31.
12.
2003
- Kontaktpersonen:
- Beteiligte Personen:
- Gesponsert von:
- Referenznummer:
- IST-2000-26061, 0415053 (Dortmund), 15311571 (Duisburg)
- Teilnehmende Institutionen:
Dieses Forschungprojekt bearbeitete Probleme, die aus der
Benutzung tausender heterogener, verteilter multimedialer
digitaler Bibliotheken resultieren. Die Benutzer müssen
geeignete Bibliotheken auswählen ("resource selection"),
ohne die Güteparameter der einzelnen Bibliotheken
(Quantität, Qualität, Typ der Informationen,
Herkunft der Dokumente, Relevanz) zu
kennen. Anschließend sind die Ergebnisse in ein
einheitliches Format zu überführen ("data fusion")
und zu interpretieren. Dies erfolgt typischerweise durch eine
visuelle Bewertung und ad-hoc-Integration, die den Benutzer
zwingt, seine Aufmerksamkeit auf eine kleine Teilmenge der
gefundenen Informationen zu konzentrieren.
MIND unterstützt den Benutzer bei der Auswahl der
Bibliotheken, bei der Erzeugung der Anfragen für
unterschiedliche Medien und bei der Kombination der Ergebnisse.
Die Universität Dortmund ist für drei Teilaufgaben
verantwortlich:
Auswahl geeigneter Datenbanken:
Ausgangspunkt war das entscheidungstheoretisches
Modell
[Fuhr:99b]
, das in Dortmund entwickelt
wurde. Jeder Datenbank werden Kosten für das Retrieval
zugeordnet (die Retrievalqualität, Kommunikationszeit und
monetäre Kosten einschließen). Zu einer Frage (die
gleichzeitig spezifiert, wie viele Dokumente geliefert
werden sollen), soll dann eine optimale Auswahl gefunden
werden, d.h. für jede Datenbank die Anzahl der zu liefernden
Dokumente (aus Effizienzgründen sollte diese Zahl für die
meisten Datenbanken Null sein). Nebenbedingungen sind, daß
in der Summe hinreichend viele Dokumente erreicht werden
sollen, und daß die Gesamtkosten minimal ist.
Dieses Modell wurde in MIND verfeinert
[Nottelmann/Fuhr:03a]
. Die wesentlichen
Errungenschaften:
- 2 neue Verfahren zur Abschätzung der Retrievalqualität
(simuliertes Retrieval auf einem Sample; angenommene
Normalverteilung für die Indexierungsgewichte)
- bessere Beschreibung der Beziehung zwischen
Inferenzwahrscheinlichkeit (RSV) und
Relevanzwahrscheinlichkeit durch logistische (statt
linearer) Funktion
[Nottelmann/Fuhr:03e]
- erstmalige Evaluierung, vergleich Qualität zu CORI,
dem State-of-the-Art in Sachen Resource Selection
- Erweiterung auf andere Daten- und Medientypen neben
Text
[Nottelmann/Fuhr:03c]
- Integration von CORI in das entscheidungstheoretische
Modell
Heterogenität:
Die existierenden Bibliotheken unterscheiden sich deutlich
im Inhalt und der Struktur (Schema
[Fuhr:99]
)
ihrer Dokumente (z.B. kann zwischen "editor" und "author"
unterschieden werden). Daher muß die Benutzerfrage (die
bezüglich eines globalen Schemas gestellt wird) für jede
Datenbank übersetzt werden in das Schema dieser
Datenbank.
Diese Grundidee wurde in MIND weitergeführt und
implementiert
[Nottelmann/Fuhr:03b]
. Die
wesentlichen Errungenschaften:
- Modellierung von MIND-Fragen und -Dokumenten in
DAML+OIL
- Definition von unsicheren Schema-Mapping-Regeln in
Probabilistic Datalog
- Umwandlung der Regeln in XSLT-Stylesheets
- Implementierung
- erste Ansätze zum Lernen der unsicheren logischen
Regeln aus einer Beispielmenge
[Nottelmann/Fuhr:01]
Medientyp "Fakten":
Im Projekt MIND wurden vier verschiedene Medientypen
betrachtet: Text, Bilder, Fakten (z.B. Autoren,
Jahreszahlen) und die Transkripte der
Spracherkennung. Dortmund war verantwortlich für den Bereich
"Fakten".
In den meisten Bereichen unterscheiden sich Fakten nicht
von Text. Wesentliche Unterschiede gibt es bei der Auswahl
geeigneter Datenbanken. Daher wurde das
entscheidungstheoretische Modell um die Kostenabschätzung
für verschiedene Datentypen für Fakten erweitert
[Nottelmann/Fuhr:03c]
.
Unten stehen die Veröffentlichungen unserer Gruppe in Rahmen
des Projektes. Auf der offiziellen Projektseite gibt es auch
die Veröffentlichungen
aller Projektpartner.
Publikationen- J. Callan; F. Crestani; H. Nottelmann; P. Pala; X. M. Shou (2003).
- Resource Selection and Data Fusion in Multimedia Distributed Digital Libraries (poster). In SIGIR:03
- H. Nottelmann; N. Fuhr (2003).
- From uncertain inference to probability of relevance for advanced IR applications. In ECIR:03
- H. Nottelmann; N. Fuhr (2003).
- Evaluating different methods of estimating retrieval quality for resource selection. In SIGIR:03
- H. Nottelmann; N. Fuhr (2003).
- Combining DAML+OIL, XSLT and probabilistic logics for uncertain schema mappings in MIND. In ECDL:03
- H. Nottelmann; N. Fuhr (2003).
- Decision-theoretic resource selection for different data types in MIND. In SIGIR-DIR:03
- H. Nottelmann; N. Fuhr (2003).
- The MIND Architecture for Heterogeneous Multimedia Federated Digital Libraries. In SIGIR-DIR:03
- H. Nottelmann; N. Fuhr (2003).
- From Retrieval Status Values to Probabilities of Relevance for Advanced IR Applications. Information Retrieval 6(4)
- H. Nottelmann; P. Pala (2003).
- MIND: A Graphical User Interface for Presenting Fused Results from Multi-Media Distributed Digital Libraries (poster). In ECDL:03
- N. Fuhr; C.-P. Klas (2001).
- Combining RDF and Agent-Based Architectures for Semantic Interoperability in Digital Libraries. In DELOS-Interoperability:01
- H. Nottelmann; N. Fuhr (2001).
- Learning probabilistic Datalog rules for information classification and transformation. In CIKM:01
- H. Nottelmann; N. Fuhr (2001).
- MIND: An architecture for multimedia information retrieval in federated digital libraries. In DELOS-Interoperability:01
Vorträge- Norbert Fuhr (2003).
- Multimedia Information Retrieval in Networked Digital Libraries. Talk at the Perspectives Seminar ``Multimedia Retrieval'', Dagstuhl
- Henrik Nottelmann (2003).
- Probabilistic logics for defining and using P2P service descriptions. QMIR Seminar, London
Diplom-, Master- und Bachelorarbeiten-
Semiautomatisches Pflegen von Wrappern
- Abgeschlossene Diplomarbeit
- Lernen unsicherer Regeln in HySpirit
- Abgeschlossene Diplomarbeit
Verwandte Projekte-
DAFFODIL
-
Nutzerorientiertes Zugangssystem für heterogene Digitale
Bibliotheken
-
Pepper
-
Peer-to-Peer-Architekturen für die föderierte Suche in komplexen
digitalen Bibliotheken
Bemerkungen
Unsere deliverables
|