Supervisor(s)

Formalia

Targeted audience
  • AI Bachelor
  • Komedia Bachelor
Preconditions
  • Erfahrung in der Programmierung (Java, im Idealfall: Python)
  • Erfahrung mit SQL-basierten Datenbanken (z.B. MySQL, Postgres, MariaDB etc.)

Task description

Im Rahmen des Projektes ProViel planen wir den Einsatz des Annotationstools Notabene, mit dem PDF-Dokumente mit Markierungen und Kommentaren versehen werden können. Dieses Tool ermöglicht durch Anmerkungen und Diskussionen eine vertiefte Auseinandersetzung mit Lernmaterialien.

Für eine weitere Analyse ist vor allem der Zusammenhang zwischen den Inhalten der jeweiligen Kommentare (Annotationen) und dem jeweils kommentierten Text von besonderem Interesse, da hierdurch ersichtlich wird, wie ein bestimmter Textteil von verschiedenen Nutzern verstanden wird und welche Assoziationen diese mit diesem Text verbinden.

Notabene wandelt die einzelnen Seiten von PDF-Dokumenten jedoch in Bilddateien um und zeigt diese dann im Browser an. Die jeweiligen Annotationen werden nur anhand von geometrischen Koordinaten dem jeweiligen Textteil zugeordnet. Daher lässt sich die Zuordnung zwischen dem jeweiligen Text und der Annotation nicht unmittelbar ableiten. Das Ziel dieser Bachelorarbeit ist die Erweiterung des Tools um eine Funktion, die eine Zuordnung von Annotationen und dem annotierten Text ermöglicht.

Dafür soll der jeweilige Textteil aus der PDF-Datei ausgelesen und zusammen mit dem Inhalt der entsprechenden Annotation(en) abgespeichert werden. Falls der Text in einer nicht-extrahierbaren Form (also z.B. als Bild) gespeichert ist, muss der im annotierten Bildbereich vorhandene Text zunächst mit Hilfe von OCR extrahiert werden, um ihn für eine weitere Verarbeitung nutzbar zu machen. Außerdem soll das Ergebnis der Zuordnung im XML- oder JSON-Format exportiert werden, um eine einfachre Verarbeitung in anderen Anwendungen zu ermöglichen.

Diese Bachelorarbeit umfasst also die folgenden Schritte: