Echtzeiterkennung von Gebärden - Preis des Hochschulrats der Hochschule Mainz verliehen
Michael Darmstadt und Marius Martin, Absolventen des Dualen Studiengangs Wirtschaftsinformatik, sind für ihre herausragenden Studienleistungen mit dem Preis des Hochschulrats der Hochschule Mainz prämiert worden. Die mit 2000 Euro dotierte Auszeichnung erhielten Michael Darmstadt und Marius Martin für ihre Bachelorarbeit „Anwendung neuronaler Netze zur Echtzeiterkennung von Gebärden der deutschen Gebärdensprache“. Die von Prof. Dr. Anett Mehler-Bicher betreute Arbeit wurde mit der bestmöglichen Note 1,0 bewertet.
Fokus auf Alltagstauglichkeit
Für zahlreiche Sprachen gibt es mittlerweile KI-basierte Übersetzungssysteme in Echtzeit.
Die Übersetzung von Gebärdensprachen steht hingegen noch am Anfang. Für die ca. 140.000 Menschen, die in Deutschland auf Gebärdensprachdolmetscher angewiesen sind, kann eine computergestützte Übersetzung die kommunikative Barriere zwischen ihnen und Hörenden deutlich erleichtern. Aufgrund der allgemeinen Komplexität von Gebärdensprachen ist die maschinelle Interpretation herausfordernd und verschiedene Ansätze müssen erst erprobt werden. Zu beachten ist, dass es nicht nur eine Gebärdensprache gibt, sondern sich Gebärdensprachen wie „normale“ Sprachen unterscheiden. So existiert eine spezifische deutsche Gebärdensprache.
Ziel der Bachelorthesis von Michael Darmstadt und Marius Martin ist die Analyse der Fragestellung, ob und wie gut sich neuronale Netze zur Echtzeit-Erkennung von Gebärden eignen. Dies soll anhand eines zu realisierenden Prototypen evaluiert werden. Die Arbeit lässt sich in das Forschungsfeld der Computerlinguistik, also der maschinellen Verarbeitung von natürlichen Sprachen einordnen, da sie sich insbesondere mit dem Aspekt Gebärdensprache, die eine natürliche Sprache darstellt, beschäftigt. Der Fokus liegt auf der Erkennung einzelner Gebärden und muss von der Übersetzung in eine Lautsprache abgegrenzt werden.
In den meisten Forschungsansätzen, die sich mit dem Erkennen und Übersetzen von Gebärden mit Hilfe von Computern auseinandersetzen, werden Methoden des maschinellen Lernens auf Basis neuronaler Netze verwendet. Bei diesen muss die Software nicht explizit programmiert werden, sondern der Computer lernt anhand von Beispielen. Da ein Mensch die Gebärden nicht so präzise beschreiben und einen Computer so programmieren kann, dass dieser sie erkennt, ist eine selbst lernende Maschine auf Basis neuronaler Netze der konsequente Lösungsansatz. Die Arbeit legt dabei auch einen besonderen Wert auf die Alltagstauglichkeit eines potenziellen Systems.
3000 Beispielvideos
Um zu ermitteln, in welchem Maße ein neuronales Netz sich zur Erkennung einzelner Gebärden eignet, wurde mit Hilfe des multimedialen Machine Learning-Frameworks MediaPipe ein Software-Prototyp erstellt. Für den Prototypen wurden acht verschiedene Varianten von neuronalen Netzen anhand von über 3.000 Beispielvideos für 30 verschiedene Gebärden trainiert. Die besten Modelle wurden in den Prototypen implementiert und Experimente hinsichtlich der Gebärdenerkennung durchgeführt. Das beste Modell erreichte hierbei in einer kontrollierten Umgebung eine Erkennungsrate von 96,7 % für die ihm bekannten Gebärden.
Grundlage für weiterführende Forschungen
„Die arbeit orientiert sich an hochaktuellen Forschungs- und Implementierungsansätzen und ist hervorragend gelungen“, so Prof. Dr. Anett Mehler-Bicher. „Mit 30 Gebärden handelt es sich jedoch noch um einen stark begrenzten Wortschatz. Zudem ist der Prototyp lediglich in der Lage, einzelne Gebärden zu erkennen. Kontextuelle Sätze können derzeit noch nicht erkannt werden. Die Ergebnisse dieser Arbeit können jedoch als Grundlage für weiterführende Forschungen dienen. Für die ca. 140.000 Menschen, die in Deutschland auf Gebärdensprachdolmetscher angewiesen sind, kann eine computergestützte Übersetzung die kommunikative Barriere zwischen ihnen und Hörenden deutlich erleichtern. Die Bachelorarbeit von Michael Darmstadt und Marius Martin ist dafür ein wichtiger erster Schritt und damit von großem gesellschaftlichem Interesse.“
Den Preis hatte der Hochschulrat 2009 gestiftet. Prof. Dr. Susanne Weissman, Präsidentin der Hochschule Mainz, betonte bei der Verleihung: „Der Preis ist eine besondere Auszeichnung für die Studierenden und Absolventinnen und Absolventen, mit der unsere Hochschule herausragende Studienleistungen honoriert. Wir freuen uns, mit der diesjährigen Auszeichnung eine Abschlussarbeit würdigen zu können, die ein großes Potenzial hat, als mögliches Forschungsprojekt weiterverfolgt zu werden.“
Weitere Informationen:
https://github.com/Tachionstrahl/SignLanguageRecognition/raw/master/docs/demo.mp4 Video-Demonstration des Ergebnisses der Arbeit