Corona per SprachApp erkennbar
Anhand der Stimme eine Covid-19-Infektion erkennen? Das vermag die Spracherkennungs-App von Prof. Dr. Björn W. Schuller, Professor für Künstliche Intelligenz und Digitale Gesundheit. Sie errechnet anhand eines vorgelesenen Textes oder auch freier Sprache die Wahrscheinlichkeit, mit dem sogenannten Corona-Virus infiziert zu sein. Die Trefferquote liegt im Moment über 80 Prozent, die App wird aber noch weiter verbessert und getestet.
Bereits seit Jahren beschäftigen sich Schuller und sein Team mit Stimmenanalysen an der Schnittstelle zwischen Informatik und Medizin. Schon im Jahr 2012 haben die Wissenschaftler Kehlkopfkrebs „gehört“, danach Autismus (2013), Parkinson’s (2015) und Erkältung (2016). Seit 2016 entwickelten Schuller und Team im RADARCNS Stimmenanalysen zur Diagnostik von großen Krankheitsbildern wie Depressionen oder Epilepsien.
Mit der Pandemie hat sich dieses Forschungsfeld verändert: Im März 2020 schon erhielt das Entwickler-Team die Möglichkeit zum aktuellen Covid-19-Virus zu forschen. Neues Ziel: Eine für niedergelassene Ärzte und Interessierte unkomplizierte Anwendung auf der Basis von Smartphone-Technologie zu entwickeln, die das Erkennen einer Covid-19-Infektion berührungslos, in Echtzeit und sogar auf Distanz ermöglicht.
Der Weg zur Spracherkennung von Covid-19
Im März 2020 begann Björn Schuller Stimmenaufnahmen aus Wuhan, die er von chinesischen Kollegen erhielt, auszuwerten: Insgesamt verarbeitete das Team zunächst etwa 50 Stimmen von Covid-19-Patienten und etwa 50 Stimmen von nicht infizierten Patienten. „Diese Auswertungen waren erste Lernbeispiele für unseren Computer. Je mehr Stimmen wir auswerten können, umso genauer kann die App später funktionieren.“, erklärt der Informatiker Björn Schuller. „Inzwischen erhalten wir die Daten aus dem Universitätsklinikum Augsburg, leider muss man sagen“, erklärt der Wissenschaftler angesichts der hohen Inzidenzwerte im Corona-Hotspot Augsburg.
Jetzt werden die Stimmenproben gemeinsam mit Ärzten im Universitätsklinikum Augsburg aufgenommen. Björn W. Schuller arbeitet dort mit Privatdozent Dr. Markus Wehler, Direktor der IV. Medizinischen Klinik sowie der Zentralen Notaufnahme des Universitätsklinikums Augsburg, zusammen. „Aus Sicht der Notfall- und Akutmedizin wäre ein solches Instrument sehr hilfreich, da ein Sprachtest sehr schnell durchzuführen und wenig belastend ist und innerhalb weniger Minuten ein Ergebnis vorliegt“, sagt Wehler. „Es ist keine Blutabnahme nötig, kein Röntgenbild und auch sonst keine aufwendige Diagnostik, das ist von großem Vorteil. Selbst wenn das Ergebnis nicht so genau wie bei einem Abstrich ist, könnte man dennoch sehr schnell die Verdachts- von den Nicht-Verdachtsfällen trennen“, so der Notfallmediziner.
Für Schuller liegt der Vorteil dieser Zusammenarbeit auf der Hand: „So liegen auch verlässliche Tests vor. Anhand dieser lernt der Computer selber, worauf er achten muss, um COVID-19 und eben nicht COVID-19 voneinander unterscheiden zu können.“ Inzwischen liege die Erfolgsquote unserer SpracherkennungsApp zur Covid-19-Erkennung bei über 80 Prozent, erklärt er. „Aber wir sind noch mitten in der Untersuchung, brauchen natürlich weitere Daten, also viele Stimmen sowohl von Covid-19-Erkrankten als auch von gesunden Vergleichskandidaten.“
So funktioniert die Spracherkennungs-App
Die App lernt mit tiefen neuronalen Netzen die wesentlichen Merkmale in der Stimme zu repräsentieren, um dann anhand dieser eine Entscheidung zu treffen. „Man kann sich vorstellen, dass sie COVID-19 Einflüsse auf die Stimmbildung heraushören kann, etwa Kurzatmigkeit, oder auch einfach Ermüdung und natürlich Husten oder ähnliches“; beschreibt Schuller. Die Funktionsweise der App basiert auf tiefenneuronalen Netzwerken. Diese erlernen ähnlich wie im menschlichen Gehirn hochparallel Information zu verarbeiten. In Ebenen bilden sie das Sprachsignal mit zunehmender Komplexität ab und können nach dem Anlernen mit vielen Daten neue Probleme wie COVID-19 selbstständig darstellen und erkennen.
Somit lernt der Computer/die App COVID-19 schon nach wenigen Worten oder Sätzen auch von neuen Personen aus der Stimme zu erkennen. Parallel hat Schuller eine weitere App entwickelt, die über einen längeren Zeitraum zuhört und Häufigkeiten von hörbaren Symptomen wie Husten, Niesen, Kurzatmigkeit, verstopfte Nase, etc. beobachtet, aus dem „Gehörten“ Rückschlüsse zieht und die Nutzerin oder den Nutzer informiert.
„Wir hoffen, mit unserer Anwendung einen wichtigen Beitrag zur Früherkennung von COVID-19 Verdacht leisten zu können. Die Sprache ist hier quasi das neue Blut - wir verwenden es zur Analyse und brauchen es aber ebenso dringend als Spende, um unsere Systeme insgesamt verbessern zu können. Natürlich stehen Privatsphäre und Ethik dabei stets an erster Stelle. Wir entwickeln daher Lösungen, die direkt auf dem Endgerät eines Nutzers die Daten auswerten und nur für den Nutzer einsehbar sind“, betont Schuller.
Nächste Schritte
Das Projekt Spracherkennung von Covid-19 ist noch nicht abgeschlossen: „Wir beschäftigen uns neben der Verbesserung der Zuverlässigkeit mit einer erhöhten Erklärbarkeit der Analyse und erhöhten Transparenz der Entscheidung. Natürlich sind wir dann in erster Linie daran interessiert, dass Projekt in eine reale Anwendung überführen zu können, um für uns alle einen Mehrwert in dieser herausfordernden Zeit leisten zu schaffen.“, beschreibt Prof. Dr. Björn W. Schuller die nächsten Schritte.
Noch gibt es keine Partner, aber Schuller arbeitet auch mit seiner Firma audEERING GmbH an Lösungen, die entsprechend bereitgestellt werden können.
Hintergrundinformationen zum Lehrstuhl für Embedded Intelligence for Health Care and Wellbeing
Der Lehrstuhl für Embedded Intelligence for Health Care and Wellbeing an der Universität Augsburg verbindet Informatik mit moderner Medizin. Das Forschungsfeld ist die sensor- und wissensbasierte Begleitung und Überprüfung aller gesundheitsrelevanten Parameter bei sportlichen und anderen Aktivitäten.
Das Hauptinteresse liegt in der Erfassung, Analyse und Interpretation von Biosignalen, wie sie etwa bei der Überwachung der Herzaktivität, des Stoffwechsels oder neuronalen Aktivitäten anfallen. Daneben werden auch akustische Parameter (Sprache und andere akustische Ereignisse) sowie visuelle Parameter (Gesicht, Gestik, Körpermotorik) in einem realistischen Szenario (Alltagsleben) verarbeitet.
Der Lehrstuhl von Prof. Dr. Björn Schuller ist angesiedelt in der Fakultät für Angewandte Informatik (FAI), Björn Schuller ist darüber hinaus Zweitmitglied der Medizinischen Fakultät sowie im Schwerpunkt Medizinische Informatik aktiv.
Publikationen:
https://arxiv.org/abs/2005.00096.pdf
https://arxiv.org/pdf/2005.08579.pdf
https://arxiv.org/pdf/2003.11117.pdf
Wissenschaftlicher Ansprechpartner:
Prof. Dr-Ing. habil. Björn W. Schuller
Lehrstuhl für Embedded Intelligence for Health Care and Wellbeing
Telefon: +49 (0) 821 598 - 2910
E-Mail: schuller@informatik.uni-augsburg.de