Quantitative Untersuchungen zu antizipierender Koartikulation mit Methoden der Automatischen Spracherkennung
Wrede B, Fink GA, Kummert F, Sagerer G (1999)
In: 34. Linguistisches Kolloquium. Peter Lang.
Konferenzbeitrag
| Veröffentlicht | Deutsch
Download
Es wurden keine Dateien hochgeladen. Nur Publikationsnachweis!
Autor*in
Einrichtung
Abstract / Bemerkung
Untersuchungen zur Koartikulation basieren in der Regel auf relativ kleinen Datenmengen, da das Sprachsignal für die detaillierten Untersuchungen von Hand annotiert wird. Daher werden nur selten generelle Aussagen über die verschiedenen Koartikulationsphänomene getroffen. So herrscht keine Einigkeit darüber, welche Koartikulationsrichtung im Deutschen oder Englischen vorherrscht. Mit Methoden der automatischen Spracherkennung lassen sich Untersuchungen auf größeren Datenbasen durchführen, deren Ergebnisse wiederum in der Spracherkennung genutzt werden können. Um koartikulatorischen Einflüssen Rechnung zu tragen, werden statistische Modelle für kontextabhängige Laute - sogenannte Triphone - trainiert, die den unmittelbaren linken und rechten Kontext berücksichtigen. Diese Modelle bestehen aus mehreren Segmenten. Da nicht alle potentiell möglichen Triphone einer Sprache hinreichend robust trainierbar sind, werden Segmente, die sich hinsichtlich ihrer spektralen Eigenschaften ähnlich sind, zu Gruppen zusammengefaßt.
Für die Analyse dieser Klassen wurde die Entropie auf der Häufigkeit der Triphonkontexte berechnet, deren Segmente jeweils zu einer Klasse zusammengefaßt wurden. Die Entropie ist ein informationstheoretisches Maß für den Informationsgehalt und dient hier als Maß für die Heterogenität der linken und rechten Kontexte einer Klasse.
Die Untersuchungen wurden auf einem deutschen spontansprachlichen Korpus (Verbmobil), einem deutschen gelesenen Korpus (Erba) und einem amerikanisch-englischen gelesenen Korpus (Wall Street Journal) durchgeführt. Die Anzahl der Sprecher lag bei 654 (bzw. 85, resp. 84) mit insgesamt 13.900 Äußerungen (bzw. 8.500, resp. 7.100). In allen drei Korpora konnte ein genereller Trend festgestellt werden, demzufolge die rechten Kontexte der zusammengefaßten Segmente eine größere Homogenität aufweisen als die linken. Dieser stärkere Einfluß des rechten Kontextes kann als vorherrschende antizipierende Kontakt-Koartikulation interpretiert werden.
Diese Erkenntnis wurde in einem Spracherkennungssystem auf der Verbmobil-Stichprobe genutzt, um die Folge wortübergreifender Triphone sinnvoll zu restringieren. Dabei wurden die besten Erkennungsergebnisse mit einer Restriktion erzielt, die ausschließlich den rechten Kontext berücksichtigt (Verringerung der Wortfehlerrate um 9,3 prozent vs. Verschlechterung um 1,3 Prozent bei linkem Kontext gegenüber dem Basissystem ohne wortübergreifende Triphone). Diese Restriktion kann als Simulation des antizipatorischen Scan-Prozesses interpretiert werden, bei dem der aktuelle Laut genutzt wird, um den folgenden vorherzusagen. Eine weitere Verwendung der Untersuchungsergebnisse ist bei der Inkorporierung ungesehener Triphone in die bestehende Klassen geplant. Anhand der Untersuchung der Segmentklassen ist es möglich, Vorhersagen über die Ähnlichkeit von Segmenten aufgrund der Kontexte der Triphone zu treffen.
Erscheinungsjahr
1999
Titel des Konferenzbandes
34. Linguistisches Kolloquium
Page URI
https://pub.uni-bielefeld.de/record/2618977
Zitieren
Wrede B, Fink GA, Kummert F, Sagerer G. Quantitative Untersuchungen zu antizipierender Koartikulation mit Methoden der Automatischen Spracherkennung. In: 34. Linguistisches Kolloquium. Peter Lang; 1999.
Wrede, B., Fink, G. A., Kummert, F., & Sagerer, G. (1999). Quantitative Untersuchungen zu antizipierender Koartikulation mit Methoden der Automatischen Spracherkennung. 34. Linguistisches Kolloquium
Wrede, Britta, Fink, Gernot A., Kummert, Franz, and Sagerer, Gerhard. 1999. “Quantitative Untersuchungen zu antizipierender Koartikulation mit Methoden der Automatischen Spracherkennung”. In 34. Linguistisches Kolloquium. Peter Lang.
Wrede, B., Fink, G. A., Kummert, F., and Sagerer, G. (1999). “Quantitative Untersuchungen zu antizipierender Koartikulation mit Methoden der Automatischen Spracherkennung” in 34. Linguistisches Kolloquium (Peter Lang).
Wrede, B., et al., 1999. Quantitative Untersuchungen zu antizipierender Koartikulation mit Methoden der Automatischen Spracherkennung. In 34. Linguistisches Kolloquium. Peter Lang.
B. Wrede, et al., “Quantitative Untersuchungen zu antizipierender Koartikulation mit Methoden der Automatischen Spracherkennung”, 34. Linguistisches Kolloquium, Peter Lang, 1999.
Wrede, B., Fink, G.A., Kummert, F., Sagerer, G.: Quantitative Untersuchungen zu antizipierender Koartikulation mit Methoden der Automatischen Spracherkennung. 34. Linguistisches Kolloquium. Peter Lang (1999).
Wrede, Britta, Fink, Gernot A., Kummert, Franz, and Sagerer, Gerhard. “Quantitative Untersuchungen zu antizipierender Koartikulation mit Methoden der Automatischen Spracherkennung”. 34. Linguistisches Kolloquium. Peter Lang, 1999.