www.bimminger.at

Lebenslauf / Ausbildung an der Uni / Seminararbeiten / Modality Integration: Speech and Gesture

Modality Integration: Speech and Gesture

2.2. Gestenerkennungen

Durch Bewegungen von Händen, Füßen oder auch dem Kopf übermitteln Menschen auf natürlichem Wege Information. Diese Gesten und Gebärdensprache, die sowohl bewusst wie auch unbewusst verwendet wird, kann auch als Informationseingabe, oder zur Steuerung von Maschinen verwendet werden. Vorausgesetzt die Gestik kann erkannt und interpretiert werden. Typischerweise werden die oberen Gliedmaßen (Arme, Hände und der Kopf) beobachtet. Hier spielen aber nicht nur statische, sondern vor allem dynamische Bewegungen eine wichtige Rolle.

2.2.1. Aufnahme

Der erste Schritt der Gestenerkennung liegt in der sensortechnischen Erfassung der Geste. Grundsätzlich gibt es drei unterschiedliche Ansätze:

2.2.2 Auswertung

Ähnlich wie bei der Spracherkennung, erfolgt zuerst eine Merkmalsextraktion und dann eine Klassifizierung der aufgenommenen Gesten. Die definitorischen Merkmale setzen sich aus der Form als auch dem zeitlichen Verlauf einer Geste zusammen. Sowohl implizite Ansätze (wie das Hidden-Markov Modell oder künstliche neuronale Netze), bei denen alle Gesten zuvor zu trainieren sind, als auch explizite Ansätze (wissensbasierte), die atomare Formelemente der Gestik beschreiben und zu größeren Einheiten zusammenfassen, finden bei der Gestenerkennung ihre Verwendung.

Bei der Gestenerkennung mittels Eingabeinstrumenten wie Touchscreens steht meist die graphische Objektauswahl im Vordergrund. Die Auswertung solcher Eingabegesten ist weit nicht so aufwendig wie die von videobasierten Eingaben und erfreut sich bei so genannten Handhelds steigender Beliebtheit. Auch Systeme mit Körpertrackern können bestimmte Bewegungen ohne umfangreiche Erkennungsalgorithmen als bestimmt Gesten identifizieren. Ein weiteres gutes Beispiel für einen simplen Einsatz von intuitiven Gesten bietet die Browsersoftware der schwedischen Softwareschmiede Opera. Die so genannten „Mouse gestures“ erleichtern das Surfen im World Wide Web, da sie für eine intuitive Nutzung konzipiert wurden.

2.2.2.1 Klassifikationen mit HamNoSys

Mit HamNoSys (Hamburger Notations-System) kann eine formalsprachliche Charakterisierung von Gebärden (Bsp. siehe Bild 2.2.2.1) für eine maschinelle Verwendung vorgenommen werden. Gebärden werden in HamNoSys als Wörter notiert, welche aus Grundsymbolen bestehen. Diese Symbole beziehen sich vor allem auf die oberen Gliedmaßen Arme, Hände und Kopf. Das Alphabet der Grundsymbole ist festgelegt und besteht aus ca. 200 Symbolen. Mit HamNoSys lassen sich sowohl statische Gesten (z.B.: Zeigegesten) sowie dynamische Bewegungen (z.B.: ein Quadrat durch nachzeichnen mit Handbewegungen darstellen) beschreiben. [5]

HamNoSys

Fig. 2.2.2.1 Geste für „Ermüdend“, dargestellt mit der Symbolik von HamNoSys. Beispiel einer dynamischen Geste.

2.2.2.2 Hidden-Markov-Modelle

Wie bei der Spracherkennung können Gesten auch mittels Hidden-Markov Modellen erkannt werden. Bevor das Hidden Markov Modell für eine Gestenerkennung verwendet werden kann, müssen die bestimmten Merkmale von Gesten ausreichend spezifiziert und ermittelt werden. Dabei kann zum Beispiel bei Videoaufnahmen die Differenz von zwei aufeinander folgenden Bildern zur Ermittlung der Bewegung herangezogen werden.

2.2.2.3 Künstliche Neuronale Netze

Ähnlich wie bei der Spracherkennung finden auch hier neuronale Netze wie das Multi-Layer-Perceptron Verwendung. Das Trainieren der Gesten kann sehr aufwendig werden. Das neuronale Netz kann als Eingabe z. Bsp. einen Bildausschnitt erhalten, der den Arm oder einen anderen Teil des Körpers enthält. Beim Beispiel des Armes wird dann der Winkel errechnet, indem sich der Arm in Bezug zum Körper befindet. Eine Abfolge solcher Winkelermittlungen kann eine dynamische Geste beschreiben. Statische Gesten sind hier eine Sonderform der dynamischen Gesten, bei denen die Geste über einen gewissen Zeitraum unverändert bleibt.

2.2.2.4 Der Differenz-Algorithmus

Der Differenz-Algorithmus errechnet die normierte Summe aller übrigen Pixelwerte aus der Differenz zweier Vorlagenbilder (Illustration siehe Bild 2.2.2.4). Der Differenzalgorithmus kann Idealerweise zur Gestenerkennung bei videobasierten zweidimensionalen Aufnahmesystemen zur Geltung kommen. Die Verwendung dieses Algorithmus hat drei wesentliche Vorteile: eine einfache Implementierung, eine schnelle Berechnung und niedrige Hardwareanforderungen. Die Nachteile liegen in der Empfindlichkeit gegenüber leichten Variationen in der Gestenausführung, und in einem sehr engen Wertebereich.

Differenz

Fig. 2.2.2.4: Symboldarstellung eines Vergleiches von zwei 2D-Bildern.

2.2.3 Interpretation

Gesten können sprachunterstützend oder auch als eigenständige Äußerungen interpretiert werden. Die Interpretation muss dadurch entweder in Verbindung mit dem gesprochenen Wort oder als eigenständige Anweisung ausgewertet werden.



     
Zur ersten Seite Eine Seite weiter Zur Letzten Seite