 |
Abgeschlossene Diplomarbeit:
Sentiment Classification in Diskussionen
|
 |
Betreuer
Bearbeiter
Verwandte Projekte
-
DAFFODIL
-
Nutzerorientiertes Zugangssystem für heterogene Digitale
Bibliotheken
Abgabetermin
2007-02
Formalia
- Zielgruppe
-
- DAI Hauptstudium: Bereich "D"
- Voraussetzungen
-
- Fähigkeit im Lesen und Verstehen
englischer wissenschaftlicher Publikationen
(notwendig)
- Fähigkeit und Interesse, sich in neue
theoretische und praktische Aspekte einzuarbeiten
- Vorlesung Data Mining oder Information Retrieval (notwendig)
- Erfahrung in der Programmierung mit Java (absolut
notwendig)
Aufgabenstellung
Bei der Sentiment Classification
[Pang/etal:02]
geht es darum, Dokumente danach zu
klassifizieren, ob sie sich positiv oder negativ ber das jeweilige Thema
äußern. Ein klassisches Anwendungsgebiet ist die Beurteilung, ob Reviews
z.B. über ein Produkt oder einen Film eher positiv oder negativ ausfallen.
In dieser Arbeit soll nun versucht werden, die Idee der Sentiment
Classification auf Diskussionen zu bertragen, wie man sie in
Diskussionsforen, EMail-Listen, aber auch Kommentaren und Diskussionen zu
Web-Artikeln vorfindet. Hierbei soll nun festgestellt werden, ob eine
Antwort auf einen Beitrag eher positiv oder negativ über selbigen
ausfällt. Eine Beurteilung kann auf der inhaltlichen Ebene geschehen, indem
man einer Argumentation zustimmt oder diese ablehnt, als auch auf der
Metaebene, indem ein Beitrag aus nicht-inhaltlichen Grnden abgelehnt
wird (-> "don't feed the trolls"). Basierend auf einer vorkategorisierten
Lernstichprobe soll nun ein maschinelles Lernverfahren trainiert und auf
einer Testmenge evaluiert werden. Solch eine Testkollektion, basierend auf
ZDNet News, wird zurzeit am
Lehrstuhl aufgebaut.
Die Diplomarbeit umfasst daher folgender Schritte:
- Aufarbeitung der Literatur
- Erstellen der Testkollektion (in Zusammenarbeit mit dem Lehrstuhl)
- Aufbereitung der Daten zur Verwendung in vorhandenen Klassifizierern
- Anwendung vorhandener Klassifizierer (vorzugsweise die
probabilistische Variante von Support Vector Machines
[Joachims:98]
[Platt:99]
) zur
Sentiment Classification der Kommentare
- Evaluierung der Ergebnisse
Fertiger Text
-
Marc Lechtenfeld (2007).
-
Sentiment Classification in Diskussionen. Masterthesis
Vorträge
-
05.
Juli 2006
- Antrittsvortrag
[ Folien ]
Literatur
-
Pang, Bo; Lee, Lillian; Vaithyanathan, Shivakumar (2002).
-
Thumbs up? Sentiment Classification using Machine Learning Techniques. In: Proc. of the 2002 Conference on Empirical Methods in Natural Language Processing (EMNLP)
-
Thorsten Joachims (1998).
-
Text categorization with support vector machines: learning with many relevant features. In: Claire N\'edellec; C\'eline Rouveirol (Hrsg.): Proceedings of ECML-98, 10th European Conference on Machine Learning. Springer, Heidelberg et al..
-
J. Platt (2000).
-
Probabilistic outputs for support vector machines and comparison to regularize likelihood methods. In: A.J. Smola; P. Bartlett; B. Schoelkopf; D. Schuurmans (Hrsg.): Advances in Large Margin Classifiers
|