Pferde, Flugzeuge und die Frage, was erklärbare KI eigentlich erklärt
„Erklärbare KI“ (XAI) feiert 10-jähriges Jubiläum
Gemeinsame Presseinformation der Technischen Universität Berlin, Fraunhofer Heinrich-Hertz-Institut und BIFOLD
Im Jahr 2015 initiierte die amerikanische Defense Advanced Research Projects Agency (DARPA) das Programm für „Explainable Artificial Intelligence“ – also erklärbare Künstliche Intelligenz (XAI). Ziel war es, Nutzerinnen und Nutzern ein besseres Verständnis, mehr Vertrauen und eine effektivere Kontrolle über KI-Systeme zu ermöglichen. Bereits im selben Jahr entwickelten Forschende der Technischen Universität Berlin/BIFOLD und des Fraunhofer Heinrich-Hertz-Instituts (HHI) das Verfahren der sogenannten Layer-wise Relevance Propagation (LRP) – die erste Methode, mit der Entscheidungen neuronaler Netze systematisch nachvollziehbar wurden. Heute sind XAI-Verfahren nicht nur in der Forschung und industriellen Anwendung angekommen, sondern auch Bestandteil gesetzlicher Rahmenwerke – etwa im „Right to Explanation“ der DSGVO oder den Transparenzanforderungen des EU AI Act. Der National AI Day am 16. Juli bietet Anlass, um zurück- aber auch vorauszublicken: Welche Rolle spielen Berliner Institutionen wie die TU Berlin, das Fraunhofer HHI und BIFOLD?
Der Wunsch, in die „Blackbox“ KI zu schauen, um nachvollziehen zu können, was die KI gelernt hat und wie sie zu ihren Entscheidungen kommt, ist fast so alt wie die KI-Forschung selbst. Mit dem Durchbruch des Deep Learnings im Jahr 2012 vollzog sich ein Paradigmenwechsel: KI-Modelle wurden plötzlich extrem komplex – und es wurdezunehmend unklar, wie diese Modelle ihre Entscheidungen eigentlich treffen. Heute sind es vor allem große Sprachmodelle, die mit 10, 100 oder mehr Milliarden frei einstellbaren Parametern eine Komplexität erreichen, die die des menschlichen Gehirns übersteigt. Forscher der TU Berlin, des Fraunhofer HHI und BIFOLD haben das Forschungsfeld „Explainable AI“ von Beginn an entscheidend geprägt.
Erklärungen einzelner Vorhersagen (2012 – 2018)
Das sogenannte Layer-wise Relevance Propagation (LRP) Verfahren wurde 2015 von einem Team rund um BIFOLD Co-Direktor Prof. Dr. Klaus-Robert Müller, Leiter des Fachgebiets Maschinelles Lernen an der TU Berlin, und Prof. Dr. Wojciech Samek, Leiter der Abteilung Künstliche Intelligenz am HHI, Prof. an der TU Berlin und BIFOLD Fellow, entwickelt. „Unser Ziel war es, einzelne Modellentscheidungen transparent und nachvollziehbar zu machen. Das Verfahren nutzt sogenannte Heatmaps, um sichtbar zu machen, welche Eingabedimensionen (z. B. einzelne Pixel bei Bildern oder Wörter bei Texten) wie stark zur Vorhersage des Modells beigetragen haben“, erläutert Wojciech Samek. LRP war seinerzeit die erste allgemeine Methode zur systematischen Erklärung neuronaler Entscheidungen – und ist bis heute weltweit im Einsatz. Die Kernidee: Die Entscheidung des Modells wird rückwärts durch das Netz „zurückgerechnet“, wobei Neuronen, die besonders stark zur Vorhersage beigetragen haben, einen entsprechend höheren Relevanzwert erhalten. Das Verfahren ist extrem effizient und lässt sich selbst auf große Sprachmodelle mit Milliarden Parametern problemlos anwenden. In der Praxis ermöglicht eine solche Erklärung unter anderem die Aufdeckung von Fehlverhalten: So konnte gezeigt werden, dass einige Modelle trotz guter Performanz ihre Aufgaben nicht wirklich „verstehen“, sondern teilweise nur besonders effektiv „schummeln“. Bekanntestes Beispiel: Ein Bildklassifikationsmodell erkannte Pferdebilder nicht anhand der Tiere, sondern anhand eines Copyright-Wasserzeichens, das sehr häufig auf solchen Bildern zu sehen war.
Verständnis des Modells (2018 – 2023)
Die zweite Welle der Erklärbarkeitsforschung hatte das Ziel, das Innenleben von KI-Modellen besser zu verstehen – also nicht nur zu erklären, worauf ein Modell reagiert, sondern wie es intern funktioniert und welche Konzepte es gelernt hat. Das Forscherteam an TU Berlin, Fraunhofer HHI und BIFOLD entwickelte hierfür eine Reihe neuartiger Analyseverfahren. Zu den zentralen Beiträgen zählen die Concept Relevance Propagation (CRP) sowie die Disentangled Relevant Subspace Analysis (DRSA). Beide Methoden bauen auf der Idee von LRP auf, erweitern diese jedoch entscheidend: Sie analysieren nicht nur die Relevanz der Eingabedaten, sondern auch die Rolle einzelner Neuronen und neuronaler Substrukturen innerhalb des Modells. In der Praxis konnten mit CRP zum Beispiel die Konzepte sichtbar gemacht werden, die ein KI-Modell gelernt hat, das aus quantitativen MRT-Daten von Patient*innen Alzheimer klassifiziert. CRP konnte die im neuronalen Netzwerk gelernten Konzepte für die Klassifikation „krank“ oder „nicht krank“ sowohl identifizieren als auch visualisieren und mit bekannten krankheitsspezifischen Regionen im Gehirn vergleichen. Diese Form der Erklärbarkeit ist nicht nur für den Einsatz von KI in der Medizin unverzichtbar.
Ganzheitliches Verständnis (2023 – heute)
„Aktuell geht es um ein systematisches und umfassendes Verständnis von KI-Modellen, ihrem Verhalten und ihren internen Repräsentationen. In dem Kontext haben wir jüngst ‚SemanticLens‘ veröffentlicht, ein System, das versucht, die Funktion und Qualität jeder einzelnen Komponente – also jedes Neurons – im Modell transparent zu machen“, beschreibt Wojciech Samek. „Das Prinzip lässt sich vielleicht am besten mit einem komplexen technischen System wie einem Airbus A340-600 vergleichen: Der Airbus besteht aus über vier Millionen Einzelteilen. Flugzeugingenieure müssen die Funktion und Zuverlässigkeit jedes Einzelteils verstehen und dokumentieren, um eine Überprüfbarkeit des Gesamtsystems zu garantieren. Im Gegensatz dazu ist die Rolle einzelner Neuronen in einem KI-Modell bislang weitgehend unklar, was automatisierbare Prüfungen und Zuverlässigkeitsanalysen erschwert.“ SemanticLens schließt genau diese Lücke. Es ermöglicht – erstmals in dieser Form – neuartige systematische Analysen und Validierungen. Diese neue Qualität der Modellanalyse markiert einen entscheidenden Schritt hin zu prüfbaren, vertrauenswürdigen und kontrollierbaren KI-Systemen, insbesondere im Hinblick auf sicherheitskritische Anwendungen.
Was bringen die nächsten 10 Jahre?
„Der XAI-Fokus wird sich in den kommenden Jahren verschieben: Weg von rein post-hoc-Analysen – also Erklärungen im Nachhinein – hin zu interaktiven, integrativen Ansätzen, die die Erklärung als festen Bestandteil der Mensch-KI-Interaktion begreifen“, ist Wojciech Samek überzeugt. Dabei stellen sich neue, zentrale Fragen: Welche Art der Erklärung ist für Nutzer*innen in welchem Kontext hilfreich? Wie muss eine erklärbare Schnittstelle aussehen? Und wie kann auch der Informationsfluss vom Menschen zurü ck zum Modell gestaltet werden, um etwa Missverständnisse zu vermeiden oder Eingriffe zu ermöglichen? Die Erklärbarkeit entwickelt sich damit vom Analysewerkzeug hin zur aktiven Steuerungstechnologie – ein entscheidender Schritt für einen verantwortungsvollen und sicheren Einsatz moderner KI-Systeme. Ein weiterer zukunftsträchtiger Forschungsstrang liegt im wissenschaftlichen Einsatz erklärbarer KI: Die Nutzung erklärender Modelle zur Erkenntnisgewinnung in den Natur-, Lebens- und Geisteswissenschaften. Forscher der TU Berlin, des Fraunhofer HHI und BIFOLD haben hier bereits wichtige Impulse gesetzt, etwa in der Krebsforschung, Quantenchemie oder den Geschichtswissenschaften.
Publikation: https://arxiv.org/abs/2501.05398
Interaktive Demo: https://www.hhi.fraunhofer.de/en/departments/ai/technologies-and-solutions/semanticlens.html
Weitere Informationen erteilt Ihnen gern:
Prof. Dr. Wojciech Samek
Fachgebiet Maschinelles Lernen und Kommunikation
Fakultät IV Elektrotechnik und Informatik
TU Berlin
Tel.: 030 31002-417
E-Mail: wojciech.samek@hhi.fraunhofer.de
Die semantisch ähnlichsten Pressemitteilungen im idw
