Komplexität muss sich lohnen

Warum einfache Code-Analyse Methoden in manchen Fällen mit der KI mithalten können

Ob die App für das Online-Banking, das Patientenportal einer Klinik oder die Software im eigenen Auto: Fast jeder Alltagstätigkeit liegen heute tausende Zeilen Programmcode zugrunde. Ein einziger unentdeckter Fehler im Code kann zu Sicherheitslücken mit teils gravierenden Auswirkungen führen, beispielsweise das Abgreifen sensibler Daten oder der Ausfall von kritischen Systemen. Um solche Systeme vor ihrem Einsatz zu überprüfen, werden heute oft große Sprachmodelle (Large Language Models, LLMs) eingesetzt. Ein Forschungsteam des Berlin Institute for the Foundations of Learning and Data (BIFOLD) an der TU Berlin zeigt nun in einer aktuellen Studie, dass sich der immense technische Aufwand dieser LLMs nicht immer auszahlt. Die Publikation „LLM-based Vulnerability Discovery through the Lens of Code Metrics“ von Felix Weißberg, Lukas Pirch, Erik Imgrund, Jonas Möller, Dr. Thorsten Eisenhofer und Prof. Dr. Konrad Rieck wurde jetzt auf der 48th IEEE/ACM International Conference on Software Engineering (ICSE) 2026, einer der weltweit wichtigsten Konferenzen im Bereich Softwaretechnik, vorgestellt.

Große Sprachmodelle gelten als besonders leistungsfähig, wenn es darum geht, Programmcode zu erzeugen, zu verstehen und vor allem auch zu analysieren. Unter der Annahme, dass bei der Analyse von Code mehr Komplexität auch bessere Ergebnisse bringt, konzentrierte sich die Forschung in den vergangenen Jahren darauf, immer größere und komplexere Modelle mit immer mehr Parametern zu bauen. Das BIFOLD Team stellt in seiner Arbeit die Gegenfrage: Welchen Mehrwert bringen diese großen Modelle, verglichen mit der Analyse von einfachen, sogenannten Code-Metriken, die bereits seit den 1970er Jahren eingesetzt werden? Code-Metriken sind einfache, quantitative Kennzahlen, die zum Beispiel die Größe des Quellcodes in Zeilen oder Zeichen nennen, komplexere Metriken versuchen die Verständlichkeit des Quellcodes zu beurteilen.

„Nach dem Grundsatz ‘Korrelation ist nicht gleich Kausalität’ können solche Metriken nur einen Hinweis auf eine mögliche Schwachstelle geben, sie sind aber kein direkter Nachweis” erläutert Autor Lukas Pirch. Im Gegensatz dazu sollen LLMs inhaltlich „verstehen“, was ein Stück Code tut.

Das überraschende Ergebnis der Studie
Das zentrale Ergebnis der Studie: Ein klassisches Erkennungssystem, das sich auf lediglich 23 Code-Metriken stützt, erreicht bereits 98 Prozent der Erkennungsrate der besten modernen LLMs und benötigt dafür nur sechs Prozent der Parameter. Selbst ein Erkennungssystem, das sich nur auf eine einzige Metrik beschränkt, erzielt noch mehr als 90 Prozent der Erkennungsleistung eines deutlich ressourcen-aufwendigeren Sprachmodells. „Für die IT-Sicherheit sind das gute Nachrichten: Vielleicht können wir viele Fehler in Software auch mit weniger Ressourcen finden und beheben“, resümiert Konrad Rieck.

In einem zweiten Schritt untersuchten die Wissenschaftler die Ursache für diesen auffälligen Gleichstand. Autor Felix Weißberg: „Mithilfe statistischer Verfahren konnten wir zeigen, dass sämtliche untersuchten LLMs Code-Metriken einsetzen oder sehr ähnliche Muster haben und ihre Vorhersagen eng mit diesen korrelieren. Für einige Modelle konnten wir sogar starke Indikatoren für eine Kausalität nachweisen: Die Entscheidungen der LLMs beruhte, zumindest teilweise, auf den simplen, seit Jahrzehnten bekannten Mustern.”

„Dass der Unterschied zwischen beiden Ansätzen unter realistischen Bedingungen so klein ist, hat uns überrascht”, bringt Konrad Rieck die Ergebnisse seines Teams auf den Punkt. „Unsere Ergebnisse zeigen, dass die jüngsten Fortschritte bei der Erkennung von Schwachstellen mittels KI weniger auf die Fähigkeiten der LLMs selbst zurückgehen als auf die Werkzeuge und die Umgebung, in denen sie operieren. Es stellt sich daher die Frage, ob die immense Größe heutiger Modelle für diese Aufgabe überhaupt notwendig ist.“

Publikation:
Felix Weißberg, Lukas Pirch, Erik Imgrund, Jonas Möller, Thorsten Eisenhofer, Konrad Rieck: LLM-based Vulnerability Discovery through the Lens of Code Metrics. Proceedings of the 48th IEEE/ACM International Conference on Software Engineering (ICSE), 2026.
https://mlsec.org/docs/2026-icse.pdf

Weitere Informationen erteilen Ihnen gern:
Prof. Dr. Konrad Rieck
TU Berlin/BIFOLD
E-Mail: rieck@tu-berlin.de

Komplexität muss sich lohnen

Ähnliche Pressemitteilungen im idw