Real-time automatic emotion recognition from speech

Vogt T (2010)
Bielefeld (Germany): Bielefeld University.

Bielefelder E-Dissertation | Englisch
 
Download
OA
Autor*in
Vogt, Thurid
Gutachter*in / Betreuer*in
Wrede, Britta
Alternativer Titel
Automatische Emotionserkennung aus Sprache in Echtzeit
Abstract / Bemerkung
In den vergangenen Jahren ist in der Mensch-Maschine-Kommunikation die Notwendigkeit, auf den emotionalen Zustand des Nutzers einzugehen, allgemein anerkannt worden. Um diesen automatisch zu erkennen, ist besonders Sprache in den Fokus gerückt. Bisher ging es dabei hauptsächlich um akademische und wenig anwendungsbezogene Untersuchungen, die auf im voraus aufgenommenen Datenbanken mit emotionaler Sprache beruhen. Die Anforderungen hierbei unterscheiden sich jedoch von denen der Online-Analyse, insbesondere sind im letzteren Fall die Bedingungen schwieriger und weniger vorhersagbar. Diese Dissertation beschäftigt sich mit der automatischen Erkennung von Emotionen aus Sprache in Echtzeit anhand akustischer Merkmale. Dazu wurden zunächst Experimente auf bestehenden Datenbanken mit emotionaler Sprache durchgeführt, um geeignete Methoden zur Segmentierung, Merkmalsextraktion und Klassifikation des Sprachsignals zu finden. Geeignet heißt hierbei, dass die Methoden möglichst schnell und möglichst korrekt arbeiten. Um weitgehend allgemeingültige Ergebnisse zu erhalten, wurden die Experimente auf drei Datenbanken mit sehr unterschiedlichen Sprach- und Emotionstypen durchgeführt, nämlich der Berlin Datenbank mit Emotionaler Sprache, dem FAU Aibo Emotionscorpus und dem SmartKom Mobile Corpus, die sowohl gelesene als auch spontane Sprache sowie gespielte und natürliche Emotionen enthalten. Die bei diesen Experimenten gewonnenen Erkenntnisse wurden dazu verwendet, eine umfassende Sammlung von Werkzeugen und Programmen zur Online- und Offline-Emotionserkennung, genannt EmoVoice, zu implementieren. Anhand von verschiedenen prototypischen Anwendungen und drei Benutzerstudien wurde die praktische Nutzbarkeit von EmoVoice, insbesondere auch durch externe Softwareentwickler, bewiesen. Weiterhin wurden vier Offline-Studien zur multimodalen Emotionserkennung durchgeführt, die akustische Merkmale mit Kontextinformation (Geschlecht), Biosignalen, Wortinformation und Mimik verbinden, da multimodale Erkennungsansätze eine höhere Erkennungsgenauigkeit versprechen.

Recently, the importance of reacting to the emotional state of a user has been generally accepted in the field of human-computer interaction and especially speech has received increased focus as a modality from which to automatically deduct information on emotion. So far, mainly academic and not very application-oriented offline studies based on previously recorded and annotated databases with emotional speech were conducted. However, demands of online analysis differ from that of offline analysis, in particular, conditions are more challenging and less predictable. Therefore, in this thesis, real-time automatic emotion recognition from acoustic features of speech was investigated. First, offline experiments were conducted to find suitable audio segmentation, feature extraction and classification algorithms. Suitable means in this context that they should be fast and at the same time give as correct results as possible. To be more general, results were obtained from three databases of different speech and emotion types, the Berlin Database of Emotional Speech, the FAU Aibo Emotion Corpus and the SmartKom Mobile Corpus, which include read and spontaneous speech as well as acted and spontaneous emotions. Results lead to the implementation of a collection of offline as well as online emotion recognition tools called EmoVoice. This thesis also demonstrates the applicability of the framework and its usability for external software developers with the help of several applications and three user studies. Furthermore, four offline studies of multimodal emotion recognition combining acoustic information with context information (gender), bio signals, words and facial expressions are described, since an improved accuracy can be expected from multimodal analysis.
Stichworte
Gefühl; Features; Applications; Sprache; Merkmale; Anwendungen; Speech; Automatic emotion recognition; Automatische Spracherkennung; Automatische Emotionserkennung
Jahr
2010
Page URI
https://pub.uni-bielefeld.de/record/2301483

Zitieren

Vogt T. Real-time automatic emotion recognition from speech. Bielefeld (Germany): Bielefeld University; 2010.
Vogt, T. (2010). Real-time automatic emotion recognition from speech. Bielefeld (Germany): Bielefeld University.
Vogt, Thurid. 2010. Real-time automatic emotion recognition from speech. Bielefeld (Germany): Bielefeld University.
Vogt, T. (2010). Real-time automatic emotion recognition from speech. Bielefeld (Germany): Bielefeld University.
Vogt, T., 2010. Real-time automatic emotion recognition from speech, Bielefeld (Germany): Bielefeld University.
T. Vogt, Real-time automatic emotion recognition from speech, Bielefeld (Germany): Bielefeld University, 2010.
Vogt, T.: Real-time automatic emotion recognition from speech. Bielefeld University, Bielefeld (Germany) (2010).
Vogt, Thurid. Real-time automatic emotion recognition from speech. Bielefeld (Germany): Bielefeld University, 2010.
Alle Dateien verfügbar unter der/den folgenden Lizenz(en):
Copyright Statement:
Dieses Objekt ist durch das Urheberrecht und/oder verwandte Schutzrechte geschützt. [...]
Volltext(e)
Access Level
OA Open Access
Zuletzt Hochgeladen
2019-09-06T08:57:37Z
MD5 Prüfsumme
3746ab9307a9b6971597898e39c3354e


Export

Markieren/ Markierung löschen
Markierte Publikationen

Open Data PUB

Suchen in

Google Scholar