Deepfakes im Visier: KI als Waffe gegen digitale Manipulation
Deepfakes stellen eine ernstzunehmende Herausforderung dar, die sowohl technologische als auch gesellschaftliche Fragen aufwirft. Deshalb entwickeln Forschende am Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) in Berlin Methoden, mit denen Deepfakes verlässlich erkannt werden, um Menschen mit den nötigen Warnungen und Richtigstellungen erreichen zu können. „News-Polygraph“ heißt das ambitionierte Projekt, das im Katz-und-Maus-Spiel zwischen den Erzeugnissen von generativen Modellen und Erkennungs-Technologien den entscheidenden Vorteil bringen soll.
Deepfakes sind realistisch anmutende Medieninhalte, die mithilfe generativer künstlicher Intelligenz (genKI) erzeugt oder manipuliert werden, um täuschend echte Audio-, Video- und Bildinhalte zu generieren. Die Anwendungsmöglichkeiten: Nahezu grenzenlos! Wie diese Technologie ihr positives sowie negatives Potenzial entfaltet, und wie wir uns als Gesellschaft vor Desinformation und Manipulation schützen können, beleuchten Vera Schmitt, Gastwissenschaftlerin der TU Berlin am DFKI Berlin, und Tim Polzehl, DFKI-Forscher im Bereich „Speech and Language Technology“, durch Einblicke in ihre Arbeit.
Tim Polzehl, Forschender im Bereich Speech and Language Technology am DFKI: "Eine frühe Version von dem was heute als Deepfake betrachtet wird kennen wir aus der Sprachsynthese. Dort werden mittels KI möglichst echt klingende computergenerierte Stimmen entwickelt, die sich in den letzten 5 Jahren soweit entwickelt haben, dass nun einzelne Stimmen täuschend echt generiert werden können - auch mit wenig Trainingsmaterial. Heute ermöglicht generative KI auch die Erstellung täuschend echter Bilder, Videos und Audios, die oft schwer von echten Inhalten zu unterscheiden sind. Mit dem Aufschwung und der öffentlichen Verfügbarmachung der generativen KI wurde das Thema zu einem breiten gesellschaftlichen Phänomen, das technische, ethische und anwendungsbezogene Fragen aufwirft.“
Diese Fragen verlangen nach Antworten. Als Forschende befassen sich Tim Polzehl und Vera Schmitt mit der Aufgabenstellung, wie Technologie bei der Beantwortung dieser Fragen helfen kann. Für eine erfolgreiche Identifizierung von manipulativen KI-generierte Medieninhalten braucht es neben technischen Lösungen allerdings auch gesellschaftliche - menschliche. Ein Umstand, der bereits bei der Definition von „Deepfakes“ eine Herausforderung birgt.
Vera Schmitt, Gastwissenschaftlerin im Bereich Speech and Language Technology am DFKI:„Für „Deepfakes“ eine einzige exakte Definition zu finden ist schwierig – es gibt eine Vielzahl von Definitionen. Deepfakes sind im Grunde realistische Medieninhalte, die durch KI und Transformer-basierte Modelle abgeändert, erzeugt oder verfälscht werden. Dabei gilt allerdings die eine große Debatte zu beachten, inwiefern Vorsatz, Betrug, Erpressung, Rufschädigung und politische Manipulation eine Rolle spielen, und inwieweit Kunst und Unterhaltung ein Platz eingeräumt werden sollte.“
Mensch und KI: gemeinsam stark
Es gilt also Mensch und Technologie gemeinsam zu denken. Schließlich sind es Menschen, die glauben, Eindrücke verarbeiten, manipuliert werden – und womöglich selbst manipulieren. Erst durch die Kombination von menschlichem Urteilsvermögen und KI-unterstützen Tools lässt sich verlässlich erkennen, wann eine Täuschung vorliegt, und so effektive Gegenmaßnahmen entwickeln.
Das Zusammenspiel ist deshalb notwendig, weil Vorsatz zur Täuschung beispielsweise von KI-Modellen nicht gut erkannt werden kann, denn dafür braucht es geeignete Indikatoren. Menschen müssen die Evaluationen von KI-Modellen demnach kontrollieren, selbst den Kontext schaffen und andere Möglichkeiten in Betracht ziehen.
Wir Menschen erkennen bestimmte Indikatoren für Fälschungen auf Anhieb, die KI erkennt andere Anzeichen.
Auf Details kommt es an
Ein plakatives Beispiel: Betrachten wir ein realistisch wirkendes Foto eines Menschen, der auf jeder Seite zwei Ohrläppchen hat. Für die meisten Menschen wäre dies ein deutliches Anzeichen für ein Deepfake.
Tim Polzehl: „Die KI kommt an diesem Punkt ins Straucheln, denn eventuell sehen alle von der KI erkannten Elemente realistisch aus – und das Ohrläppchen wird mitunter gar nicht erkannt. Oder es wird doch erkannt, nur kann die KI das Erkannte nicht in einen sinnvollen Kontext setzen - nämlich: dass wir Menschen nun mal in der Regel pro Ohr nur ein Ohrläppchen haben. Für eine solche Entscheidung bräuchte eine KI zunächst einmal eine deutlich gesteigerte Erkennung der Ohrläppchen, logisches, kritisches und hinterfragendes Denken und Weltwissen über menschliche Anatomie, was derzeit nicht gegeben ist. Wir Menschen haben diese Fähigkeiten und können aus unserem Wissen und dem Kontext ableiten, dass dieses Foto wohl nicht authentisch ist."
Bei Bilddarstellungen und technischen Feinheiten, ist uns die KI allerdings um Längen voraus. Lichtverhältnisse, Schatten und Überlagerungen, Bewegungen, Übergänge und Auffälligkeiten auf Pixelebene – in diesen Bereichen wird es für die menschliche Wahrnehmung schwierig. Bei dieser fast schon forensischen Betrachtung können KI-Tools hervorragend aushelfen, denn hoch spezialisiert funktioniert KI sehr gut – kann explizite Aufgaben also effektiv erfüllen. Unregelmäßigkeiten und Auffälligkeiten können dann wiederum als Indikator für mittels generativer KI-Modelle generierte Inhalte interpretiert werden.
Content-based-analysis
Abgesehen von der Identifizierung inhaltlicher Unstimmigkeiten sind Menschen dazu in der Lage, Verhältnismäßigkeiten und Erwartungen in ihre Betrachtung von Medieninhalten einfließen zu lassen.
Vera Schmitt: „In der Regel haben wir ein gutes Verständnis von Kontext und Logik. Wenn also in einem Video die Säulen am Brandenburger Tor umkippen, und umstehende Menschen überhaupt nicht auf dieses Ereignis reagieren, dann können wir sehr leicht auf eine unechte Darstellung schließen. Außerdem gäbe es bei solch einem Event eine Vielzahl von unabhängigen Quellen, welche über das Geschehen berichten würden.“
Für die Ermittlung von Deepfakes und manipulativen Inhalten muss also auf eine Analyse des Inhalts gesetzt werden. Vor allem, wenn anhand der Darstellungsform kaum zwischen authentischem und künstlichem Material unterschieden werden kann – wie beispielsweise bei Text.
Im Textbereich gibt es inzwischen viele unterschiedliche populäre Transformer-basierte Modelle zur Generierung. Diese synthetischen Texterzeugnisse sind in kleinen Mengen nahezu unmöglich zu erkennen. Sowohl für den Menschen als auch für die KI.
Vera Schmitt: „Deshalb sind für die Erkennung von falschen Informationen die Beantwortung einiger Fragen elementar. Wer hat die Information ursprünglich in den Umlauf gebracht? Welche Fakten, Personen und Events werden dargestellt? Gibt es zu der Thematik bereits bekannte Fakes?“
Auf diese Fragen können spezialisierte KI-Tools bereits verlässliche Antworten liefern. Durch öffentlich verfügbare Anwendungen wie beispielsweise Deep Ware Scanner, Deeptrace oder Whisper lassen sich Informationen validieren. Und auch der News-Polygraph soll künftig Menschen dazu ermächtigen, Informationen leichter zu überprüfen – und manipulative Narrativen aufzudecken.
Tim Polzehl: „Wir haben es mit zwei Begriffen zu tun. Zunächst gibt es Deepfakes, also Audios, Videos, Bilder und Co mit vermeintlicher Authentizität. Dann gibt es da noch Desinformationen in Narrativen. Letzteres bringt uns in den Bereich des Fact-Checking – und zu einem weiteren Aspekt unseres News-Polygraphen.“
News-Polygraph vs. Desinformation in Narrativen
Eine Grundidee des Fact-Checkings: Manipulative Narrativen wiederholen sich, also können wir in die Vergangenheit schauen – und dieselben Narrativen womöglich erneut in der Gegenwart entdecken. Bei diesem Prozess kann KI erfolgreich unterstützen. Dann bleibt zu überprüfen, ob die Narrative bereits widerlegt wurde, ob es dazu bereits Veröffentlichungen gab - und zuletzt, wie man diese Information effektiv kommunizieren kann.
Das Team um Polzehl und Schmitt versteht den News-Polygraphen als „KI-Modell zur intelligenten Entscheidungshilfe für Journalisten“. Daher sei es entscheidend, dass die Auswertungen des Modells auf eine so transparente Weise dargestellt werden können, dass diese von Journalisten entsprechend verstanden und eingeordnet werden können.
Vera Schmitt: „Es ist außerdem wichtig, die Umstände von der Verbreitung von Mis- und Desinformation zu evaluieren und diese in eine Beurteilung oder Umsetzung wie beispielsweise eines Digital Service Acts mit einfließen zu lassen. Schließlich können gefälschte Inhalte auch unwissend und unabsichtlich geteilt werden, ohne jedwede Intention dahinter, damit zu täuschen.“
Es bräuchte also ein Prozedere, durch das KI-generiertes Material nicht nur gekennzeichnet wird, sondern neben Authentizität auch Intention und Wirkung bemessen werden können. Denn die Tatsache, dass KI synthetische Medien wie Stimmen, Videos und Bilder generieren kann, sei zunächst positiv, so Schmitt. Allerdings können Menschen mit denselben Inhalten persönliche Kampagnen fahren und diese Medien missbrauchen.
Tim Polzehl: „Sich gegen Desinformationen zu wappnen heiß deshalb öfter und kritischer hinterfragen, wem und vor allem warum man bestimmten Behauptungen Glauben schenkt. Dabei spielen Intention und Quellen einer Behauptung eine immer größere Rolle. Das gilt auch für uns Wissenschaftler. Wenn beispielsweise faktenbasiert kommuniziert wird, werden in der Regel auch Quellen bereitgestellt. Am Ende müssen aber auch wir Wissenschaftler unser Vertrauen ein Stück weit verschenken – auch wenn die Wissenschaft im Anschluss daran zum größten Teil auf Evidenz basiert.“
Absolute Gewissheit gibt es nicht
Vera Schmitt: „Es wird nie eine KI geben, die alles erkennen kann. Darüber hinaus herrscht zwischen generativen Modellen und Erkennungs-Technologien ein immenses Ungleichgewicht, welches es durch einen Zuwachs an Ressourcen und Aufmerksamkeit für dieses Thema auszugleichen gilt. Denn Deepfakes haben in der heutigen Welt eine schier unendliche Reichweite – eine Skalierbarkeit – welcher durch Aufklärung, Entlastung und Befähigung begegnet werden muss.“
Auch deshalb teilten Polzehl und Schmitt ihre Einschätzungen auf der diesjährigen re:publica in Berlin. Doch selbst wenn Informationen und ein kritischer Umgang in Kombination mit KI-Tools perspektivisch dazu befähigen, Deepfakes verlässlicher zu erkennen – entschärft sind sie dadurch nicht. Die Gefahren liegen hinter der künstlich erstellten Fassade.
Tim Polzehl: „Selbst die Kennzeichnung von KI-generiertem Material schützt nicht zwingend vor Beeinflussung durch diese Inhalte! Verschiedene Studien zur Kennzeichnung lieferten die Erkenntnis, dass sich Menschen dennoch beeinflussen lassen. Durch „Erkennen“ ist das Thema also nicht vom Tisch. Es ist mein persönlicher Wunsch, dass wir als Gesellschaft die Bedeutung von Desinformation größer einsortieren, sodass wir besser darauf vorbereitet sind. Dann kann eine Kennzeichnung funktionieren, das Abfangen von schädlichen Narrativen und Inhalten gelingen und ein besseres Monitoring vollzogen werden. All das soll simultan zu einer Entlastung aller Menschen geschehen, welche konsequent mit einer wachsenden Zahl von Fälschungen konfrontiert werden. Und dedizierte Akteure dazu befähigen, dem wachsenden Output gerecht zu werden.“
Wissenschaftlicher Ansprechpartner:
Vera Schmitt, Gastwissenschaftlerin im Bereich Speech and Language Technology, DFKI Berlin
Vera.Schmitt@dfki.de
Dr.-Ing. Tim Polzehl, Wissenschaftler im Bereich Speech and Language Technology, DFKI Berlin
Tim.Polzehl@dfki.de
Originalpublikation:
https://www.dfki.de/web/forschung/projekte-publikationen/projekt/news-polygraph
Weitere Informationen:
https://www.dfki.de/web/forschung/projekte-publikationen/projekt/news-polygraph