www.bimminger.at

Lebenslauf / Ausbildung an der Uni / Seminararbeiten / Modality Integration: Speech and Gesture

Modality Integration: Speech and Gesture

2.1. Spracherkennung

Unter Spracherkennung (engl. „speech recognition“) versteht man das Erkennen gesprochener Sprache. Dabei ist vor allem auf das Einsatzgebiet zu achten. Sprache kann zum Diktieren von Texten oder auch zur direkten Befehlsanweisung an ein System verwendet werden. An der Entwicklung einer Spracherkennungslösung sind mehrere verschiedene Fachgebiete beteiligt. Dazu gehören Informatik, Linguistik, Phonetik, Mustererkennung sowie das Forschungsgebiet der künstlichen Intelligenz.

2.1.1 Aufnahme

Die Aufnahme der Lautsprache erfolgt über ein Mikrofon. Das akustische Signal wird dadurch in ein elektrisch analoges Signal umgewandelt, welches zur Weiterverarbeitung wiederum digitalisiert wird. Je qualitativ besser die Ausrüstung zur Aufnahme ist, desto weniger Störeffekte können die Auswertung beeinflussen. Um gleichmäßige Stimmqualität zu gewährleisten, ist es auch wichtig, dass das Mikrofon ständig den gleich bleibenden Abstand zum Mund einhält.

2.1.2 Auswertung

Die Auswertung kann in zwei aufeinander folgende Schritte unterteilt werden. Der erste Schritt ist die Merkmalsextraktion. Dabei wird nicht nur die zu verarbeitende Datenmenge reduziert, sondern die einzelnen Zeitabschnitte auch auf bestimmte Merkmale untersucht. Das Sprachsignal wird durch drei Größen bestimmt:

Aus diesen 3 Signalen können bestimmte signifikante Merkmale in Form von Merkmalsvektoren zu jedem Zeitabschnitt gespeichert werden. Die Klassifikation der Merkmalsvektoren erfolgt durch unterschiedliche Verfahren (vier werden hier für einen kurzen Überblick vorgestellt):

2.1.2.1 Mustervergleich ganzer Wörter

Bei dieser Methode werden dem System in einer Trainingsphase alle Wörter vorgesprochen, die es später erkennen soll. Beim Erkennungsvorgang vergleicht das System die Äußerungen des Benutzers mit den gespeicherten Mustern der Sprechproben. Da ein Wort nie zweimal genau gleich ausgesprochen wird, stimmt das zu erkennende Wort nie genau mit dem gespeicherten Muster überein. Es muss daher ein Maß für die Ähnlichkeit festgelegt werden.


Bei diesem Modell gibt es einige Fehlerquellen auf die geachtet werden sollte.

2.1.2.2 Phonemmodelle

Hier werden die Wörter in Phoneme unterteilt. Dann erfolgt ein Training der Phonemmodelle. Ein Phonem dauert etwa 10 bis 40 Millisekunden und kann in unterschiedlichen Worten vorkommen (siehe Bild 2.1.2.2).

Phonemmodell

Fig. 2.1.2.2 Trainieren von Phonemmodellen. Bei dieser Methode wird versucht, die einzelnen Phoneme direkt anhand ihrer akustischen Eigenschaften zu identifizieren. Es ist beispielsweise bekannt, dass ein /s/ länger als 50 ms dauert und hauptsächlich Frequenzen über 44 kHz aufweist. Solche Kenntnisse werden in Regeln umgesetzt oder für statistische Klassifikationsverfahren genutzt.

2.1.2.3 Hidden-Markov-Modelle

Auch das Hidden-Markov Modell in der Spracherkennung basiert oft auf der Erkennung von Phonemen. Nur werden hier die Wahrscheinlichkeiten der Übergänge von einem zum nächsten Phonem berechnet. Aus den Übergangswahrscheinlichkeiten aij ergibt sich die Auftrittswahrscheinlichkeit P(q) (siehe Bild 2.1.2.3).

Hidden Markov

Fig. 2.1.2.3 Hidden-Markov Links Rechts Modell Wenn man in Bild 2.1.2.3 für q1=“O“, für q2=“F“, für q3=“E“ und für q4=“N“ einsetzt, erhält man ein Wort „Ofen“. Die Verlängerung der einzelnen Vokale wird durch die Selbstreferenz verdeutlicht (Bsp.: "Ooofen").

Die Leistungsfähigkeit von Spracherkennungssystemen kann verbessert werden, wenn berücksichtigt wird, dass nicht alle Merkmale gleich wichtig sind. Es ist z. B. unwahrscheinlich, dass ein zu erkennendes Wort einem bestimmten Muster entspricht, wenn ihm ein sehr charakteristisches Merkmal fehlt. Nun gibt es einen Algorithmus, nach dem berechnet werden kann, wie wahrscheinlich es ist, dass eine bestimmte Folge von Merkmalsvektoren (Beobachtungsfolge) durch ein bestimmtes Wort (Modell) erzeugt wird. Diese Wahrscheinlichkeit wird für alle Wörter berechnet. Das Wort mit der größten Wahrscheinlichkeit gilt als erkannt.

2.1.2.3 Künstliche Neuronale Netze

Für die Spracherkennung werden häufig mehrstufige Feed-Forward-Netze eingesetzt, z. B. das Multi-Layer-Perceptron. Da der gewünschte Output bekannt ist, bietet sich das Lernverfahren des Supervised Learning an. Als Eingabe dienen die Merkmale des Sprachsignals. Die Anzahl der Merkmale, die dem Netz in einem Durchgang angeboten werden, muss konstant sein. Sie entspricht der Anzahl der Eingangsneuronen. Die Anzahl der Ausgangsneuronen hängt davon ab, wie viele Wörter erkannt werden sollen. Jedes Ausgabeneuron steht für ein Wort. Als erkannt gilt das Wort, dessen Neuron den Wert 1 ausgibt.

2.1.3 Interpretation

Die Spracherkennung kann zwei unterschiedlichen Zwecken dienen und muss dementsprechend interpretiert werden:



     
Zur ersten Seite Eine Seite weiter Zur Letzten Seite