Lebenslauf / Ausbildung an der Uni / Seminararbeiten / Modality Integration: Speech and Gesture
Modality Integration: Speech and Gesture
2.2. Gestenerkennungen
Durch Bewegungen von Händen, Füßen oder auch dem Kopf übermitteln Menschen auf natürlichem Wege Information. Diese Gesten und Gebärdensprache, die sowohl bewusst wie auch unbewusst verwendet wird, kann auch als Informationseingabe, oder zur Steuerung von Maschinen verwendet werden. Vorausgesetzt die Gestik kann erkannt und interpretiert werden. Typischerweise werden die oberen Gliedmaßen (Arme, Hände und der Kopf) beobachtet. Hier spielen aber nicht nur statische, sondern vor allem dynamische Bewegungen eine wichtige Rolle.
2.2.1. Aufnahme
Der erste Schritt der Gestenerkennung liegt in der sensortechnischen Erfassung der Geste. Grundsätzlich gibt es drei unterschiedliche Ansätze:
- Körpertracker: Hier können bestimmte Bewegungen durch Datenhandschuhe oder andere am Körper befestigte Sensoren erfasst werden. Umso genauer und umfangreicher Gesten erfasst werden sollen, umso mehr Verkabelung ist notwendig. Auch wenn Autoren wie Neil Gershenfeld die Zukunft des Menschen in verkabelter Kleidung sehen, so sind derzeitige Prototypen noch viel zu unbequem für eine sinnvolle Verwendung. [4]
- Videobasiert: Hier wird die Geste mit einer oder mehreren Kameras erfasst. Mit diesem Verfahren kann das Tragen unbequemer technischer Sensoren vermieden werden. Dennoch ist der Aufwand der Rekonstruktion von dreidimensionalen Gesten aus einem oder mehreren 2D Bildern ungleich höher.
- Eingabeinstrumente: Die Aufnahme erfolgt durch Simulation der Gesten mit Eingabeelementen (Griffel und Digital-Tabletts oder durch Touchscreens). Dies ist die für die Auswertung am wenigsten aufwendige Form der Aufnahme.
2.2.2 Auswertung
Ähnlich wie bei der Spracherkennung, erfolgt zuerst eine Merkmalsextraktion und dann eine Klassifizierung der aufgenommenen Gesten. Die definitorischen Merkmale setzen sich aus der Form als auch dem zeitlichen Verlauf einer Geste zusammen. Sowohl implizite Ansätze (wie das Hidden-Markov Modell oder künstliche neuronale Netze), bei denen alle Gesten zuvor zu trainieren sind, als auch explizite Ansätze (wissensbasierte), die atomare Formelemente der Gestik beschreiben und zu größeren Einheiten zusammenfassen, finden bei der Gestenerkennung ihre Verwendung.
Bei der Gestenerkennung mittels Eingabeinstrumenten wie Touchscreens steht meist die graphische Objektauswahl im Vordergrund. Die Auswertung solcher Eingabegesten ist weit nicht so aufwendig wie die von videobasierten Eingaben und erfreut sich bei so genannten Handhelds steigender Beliebtheit. Auch Systeme mit Körpertrackern können bestimmte Bewegungen ohne umfangreiche Erkennungsalgorithmen als bestimmt Gesten identifizieren. Ein weiteres gutes Beispiel für einen simplen Einsatz von intuitiven Gesten bietet die Browsersoftware der schwedischen Softwareschmiede Opera. Die so genannten „Mouse gestures“ erleichtern das Surfen im World Wide Web, da sie für eine intuitive Nutzung konzipiert wurden.
2.2.2.1 Klassifikationen mit HamNoSys
Mit HamNoSys (Hamburger Notations-System) kann eine formalsprachliche Charakterisierung von Gebärden (Bsp. siehe Bild 2.2.2.1) für eine maschinelle Verwendung vorgenommen werden. Gebärden werden in HamNoSys als Wörter notiert, welche aus Grundsymbolen bestehen. Diese Symbole beziehen sich vor allem auf die oberen Gliedmaßen Arme, Hände und Kopf. Das Alphabet der Grundsymbole ist festgelegt und besteht aus ca. 200 Symbolen. Mit HamNoSys lassen sich sowohl statische Gesten (z.B.: Zeigegesten) sowie dynamische Bewegungen (z.B.: ein Quadrat durch nachzeichnen mit Handbewegungen darstellen) beschreiben. [5]
Fig. 2.2.2.1 Geste für „Ermüdend“, dargestellt mit der Symbolik von HamNoSys. Beispiel einer dynamischen Geste.
2.2.2.2 Hidden-Markov-Modelle
Wie bei der Spracherkennung können Gesten auch mittels Hidden-Markov Modellen erkannt werden. Bevor das Hidden Markov Modell für eine Gestenerkennung verwendet werden kann, müssen die bestimmten Merkmale von Gesten ausreichend spezifiziert und ermittelt werden. Dabei kann zum Beispiel bei Videoaufnahmen die Differenz von zwei aufeinander folgenden Bildern zur Ermittlung der Bewegung herangezogen werden.
2.2.2.3 Künstliche Neuronale Netze
Ähnlich wie bei der Spracherkennung finden auch hier neuronale Netze wie das Multi-Layer-Perceptron Verwendung. Das Trainieren der Gesten kann sehr aufwendig werden. Das neuronale Netz kann als Eingabe z. Bsp. einen Bildausschnitt erhalten, der den Arm oder einen anderen Teil des Körpers enthält. Beim Beispiel des Armes wird dann der Winkel errechnet, indem sich der Arm in Bezug zum Körper befindet. Eine Abfolge solcher Winkelermittlungen kann eine dynamische Geste beschreiben. Statische Gesten sind hier eine Sonderform der dynamischen Gesten, bei denen die Geste über einen gewissen Zeitraum unverändert bleibt.
2.2.2.4 Der Differenz-Algorithmus
Der Differenz-Algorithmus errechnet die normierte Summe aller übrigen Pixelwerte aus der Differenz zweier Vorlagenbilder (Illustration siehe Bild 2.2.2.4). Der Differenzalgorithmus kann Idealerweise zur Gestenerkennung bei videobasierten zweidimensionalen Aufnahmesystemen zur Geltung kommen. Die Verwendung dieses Algorithmus hat drei wesentliche Vorteile: eine einfache Implementierung, eine schnelle Berechnung und niedrige Hardwareanforderungen. Die Nachteile liegen in der Empfindlichkeit gegenüber leichten Variationen in der Gestenausführung, und in einem sehr engen Wertebereich.
Fig. 2.2.2.4: Symboldarstellung eines Vergleiches von zwei 2D-Bildern.
2.2.3 Interpretation
Gesten können sprachunterstützend oder auch als eigenständige Äußerungen interpretiert werden. Die Interpretation muss dadurch entweder in Verbindung mit dem gesprochenen Wort oder als eigenständige Anweisung ausgewertet werden.
Mag. Andreas Bimminger; Raiffeisenstrasse 6; 2326 Maria Lanzendorf; Österreich; Tel.: +43/699/11685959
Sie befinden sich auf https://www.bimminger.at/
im Pfad: Lebenslauf / Ausbildung an der Uni / Seminararbeiten / Modality Integration: Speech and GestureErstellt: 2002-10-07