Lebenslauf / Ausbildung an der Uni / Seminararbeiten / Modality Integration: Speech and Gesture
Modality Integration: Speech and Gesture
2.1. Spracherkennung
Unter Spracherkennung (engl. „speech recognition“) versteht man das Erkennen gesprochener Sprache. Dabei ist vor allem auf das Einsatzgebiet zu achten. Sprache kann zum Diktieren von Texten oder auch zur direkten Befehlsanweisung an ein System verwendet werden. An der Entwicklung einer Spracherkennungslösung sind mehrere verschiedene Fachgebiete beteiligt. Dazu gehören Informatik, Linguistik, Phonetik, Mustererkennung sowie das Forschungsgebiet der künstlichen Intelligenz.
2.1.1 Aufnahme
Die Aufnahme der Lautsprache erfolgt über ein Mikrofon. Das akustische Signal wird dadurch in ein elektrisch analoges Signal umgewandelt, welches zur Weiterverarbeitung wiederum digitalisiert wird. Je qualitativ besser die Ausrüstung zur Aufnahme ist, desto weniger Störeffekte können die Auswertung beeinflussen. Um gleichmäßige Stimmqualität zu gewährleisten, ist es auch wichtig, dass das Mikrofon ständig den gleich bleibenden Abstand zum Mund einhält.
2.1.2 Auswertung
Die Auswertung kann in zwei aufeinander folgende Schritte unterteilt werden. Der erste Schritt ist die Merkmalsextraktion. Dabei wird nicht nur die zu verarbeitende Datenmenge reduziert, sondern die einzelnen Zeitabschnitte auch auf bestimmte Merkmale untersucht. Das Sprachsignal wird durch drei Größen bestimmt:
- Zeit,
- Frequenz und
- Intensität.
Aus diesen 3 Signalen können bestimmte signifikante Merkmale in Form von Merkmalsvektoren zu jedem Zeitabschnitt gespeichert werden. Die Klassifikation der Merkmalsvektoren erfolgt durch unterschiedliche Verfahren (vier werden hier für einen kurzen Überblick vorgestellt):
- Mustervergleich ganzer Wörter
- Phonemmodelle
- Hidden-Markov-Modelle
- Künstliche neuronale Netze
2.1.2.1 Mustervergleich ganzer Wörter
Bei dieser Methode werden dem System in einer Trainingsphase alle Wörter vorgesprochen, die es später erkennen soll. Beim Erkennungsvorgang vergleicht das System die Äußerungen des Benutzers mit den gespeicherten Mustern der Sprechproben. Da ein Wort nie zweimal genau gleich ausgesprochen wird, stimmt das zu erkennende Wort nie genau mit dem gespeicherten Muster überein. Es muss daher ein Maß für die Ähnlichkeit festgelegt werden.
Bei diesem Modell gibt es einige Fehlerquellen auf die geachtet werden sollte.
- Ein Wort kann unterschiedlich schnell gesprochen werden.
- Die Wortgrenzen müssen erkannt werden.
- Eine zusätzliche Schwierigkeit entsteht bei fließender Sprache durch Koartikulationseffekte.
- Irrelevante Geräusche wie Räuspern oder Husten sollten ignoriert werden.
- Hintergrundgeräusche können Teile des Sprachsignals überdecken.
- Jeder Mensch hat eine andere Aussprache.
- Wenn sehr viele Wörter erkannt werden sollen, wird der Trainings- und Speicheraufwand zu groß.
2.1.2.2 Phonemmodelle
Hier werden die Wörter in Phoneme unterteilt. Dann erfolgt ein Training der Phonemmodelle. Ein Phonem dauert etwa 10 bis 40 Millisekunden und kann in unterschiedlichen Worten vorkommen (siehe Bild 2.1.2.2).
Fig. 2.1.2.2 Trainieren von Phonemmodellen. Bei dieser Methode wird versucht, die einzelnen Phoneme direkt anhand ihrer akustischen Eigenschaften zu identifizieren. Es ist beispielsweise bekannt, dass ein /s/ länger als 50 ms dauert und hauptsächlich Frequenzen über 44 kHz aufweist. Solche Kenntnisse werden in Regeln umgesetzt oder für statistische Klassifikationsverfahren genutzt.
2.1.2.3 Hidden-Markov-Modelle
Auch das Hidden-Markov Modell in der Spracherkennung basiert oft auf der Erkennung von Phonemen. Nur werden hier die Wahrscheinlichkeiten der Übergänge von einem zum nächsten Phonem berechnet. Aus den Übergangswahrscheinlichkeiten aij ergibt sich die Auftrittswahrscheinlichkeit P(q) (siehe Bild 2.1.2.3).
Fig. 2.1.2.3 Hidden-Markov Links Rechts Modell Wenn man in Bild 2.1.2.3 für q1=“O“, für q2=“F“, für q3=“E“ und für q4=“N“ einsetzt, erhält man ein Wort „Ofen“. Die Verlängerung der einzelnen Vokale wird durch die Selbstreferenz verdeutlicht (Bsp.: "Ooofen").
Die Leistungsfähigkeit von Spracherkennungssystemen kann verbessert werden, wenn berücksichtigt wird, dass nicht alle Merkmale gleich wichtig sind. Es ist z. B. unwahrscheinlich, dass ein zu erkennendes Wort einem bestimmten Muster entspricht, wenn ihm ein sehr charakteristisches Merkmal fehlt. Nun gibt es einen Algorithmus, nach dem berechnet werden kann, wie wahrscheinlich es ist, dass eine bestimmte Folge von Merkmalsvektoren (Beobachtungsfolge) durch ein bestimmtes Wort (Modell) erzeugt wird. Diese Wahrscheinlichkeit wird für alle Wörter berechnet. Das Wort mit der größten Wahrscheinlichkeit gilt als erkannt.
2.1.2.3 Künstliche Neuronale Netze
Für die Spracherkennung werden häufig mehrstufige Feed-Forward-Netze eingesetzt, z. B. das Multi-Layer-Perceptron. Da der gewünschte Output bekannt ist, bietet sich das Lernverfahren des Supervised Learning an. Als Eingabe dienen die Merkmale des Sprachsignals. Die Anzahl der Merkmale, die dem Netz in einem Durchgang angeboten werden, muss konstant sein. Sie entspricht der Anzahl der Eingangsneuronen. Die Anzahl der Ausgangsneuronen hängt davon ab, wie viele Wörter erkannt werden sollen. Jedes Ausgabeneuron steht für ein Wort. Als erkannt gilt das Wort, dessen Neuron den Wert 1 ausgibt.
2.1.3 Interpretation
Die Spracherkennung kann zwei unterschiedlichen Zwecken dienen und muss dementsprechend interpretiert werden:
- Sprachtranskription: Hier geht es primär nur darum, eine schriftliche Version des gesprochenen Textes zu erhalten. Bei diesem Zweck ist die Bedeutung des gesprochenen Textes nicht von Bedeutung. Es erfolgt auch keine Befehlsinterpretation.
- Sprachverstehen: Soll das System auf den Inhalt der Äußerungen reagieren, so muss die Bedeutung des gesprochenen Textes erfasst werden.
Mag. Andreas Bimminger; Raiffeisenstrasse 6; 2326 Maria Lanzendorf; Österreich; Tel.: +43/699/11685959
Sie befinden sich auf https://www.bimminger.at/
im Pfad: Lebenslauf / Ausbildung an der Uni / Seminararbeiten / Modality Integration: Speech and GestureErstellt: 2002-10-07