Multimodale KI zur Erkennung dynamischer Handgesten in Echtzeit
In einem interdisziplinären Forschungsvorhaben haben wir uns mit der Entwicklung eines KI-gestützten Systems zur präzisen Erkennung von dynamischen Handgesten befasst. Ziel war es, ein robustes und praxisnahes Modell zu schaffen, das multimodale Eingaben (Bild- und Tiefendaten) verarbeiten kann – beispielsweise für Mensch-Maschine-Interaktionen in der Industrie oder barrierefreie Interfaces.

Wir entwickelten eine hybride Deep-Learning-Architektur, die Convolutional Neural Networks (CNNs) mit einem bidirektionalen LSTM-Netzwerk kombiniert. Dabei verarbeiten CNNs zunächst die Einzelbilder eines Videostreams, um visuelle Merkmale zu extrahieren, während das LSTM-Modul die zeitliche Dynamik über die Sequenz hinweg interpretiert. Die Architektur wurde auf dem öffentlich verfügbaren „Dynamic Hand Gesture Dataset“ trainiert und konnte in unseren Experimenten eine hohe Erkennungsgenauigkeit erzielen. Durch die Kombination aus räumlicher und zeitlicher Analyse gelingt es dem System, komplexe Gesten zuverlässig zu erkennen – ein wesentlicher Schritt hin zu intuitiven, berührungslosen Steuerungslösungen.
[1] Hax, D. R. T., Penava, P., Krodel, S., Razova, L., & Buettner, R. (2024). A novel hybrid deep learning architecture for dynamic hand gesture recognition. IEEE Access, 12, 28761-28774.