Wenn KI nicht zählen kann – und was Forschende der Hochschule Hof dagegen tun

Hof - Künstliche Intelligenz kann heute Bilder beschreiben, Objekte erkennen und komplexe Zusammenhänge erklären. Und die Entwicklung ist enorm: Sogenannte Vision-Language-Modelle (VLMs) verbinden Text- und Bildverständnis auf beeindruckende Weise. Doch ausgerechnet bei einer scheinbar einfachen Aufgabe geraten sie ins Straucheln: dem Zählen. Forschende des Instituts für Informationssysteme der Hochschule Hof (iisys) wollen hier nun Abhilfe schaffen.

„Viele der gängigen Modelle erkennen zwar sehr gut, was auf einem Bild zu sehen ist – aber nicht zuverlässig, wie viele Objekte es sind“, erklärt Prof. Dr. René Peinl vom Institut für Informationssysteme (iisys) der Hochschule Hof. Ab mehr als vier oder fünf Objekten eines Typs häufen sich Fehler.

Warum Zählen für KI so schwierig ist

Das Problem liegt tiefer, als es auf den ersten Blick scheint. Während Menschen kleine Mengen intuitiv erfassen können, müssen größere Zahlen aktiv gezählt werden. Genau dieser Schritt fehlt vielen KI-Modellen. Hinzu kommt: Bestehende Trainingsdaten sind oft ungeeignet. „Manche Datensätze sind zu einfach und fördern nur das Erkennen von Mustern - andere sind zu komplex oder fehlerhaft, etwa durch verdeckte Objekte oder unklare Fragestellungen“, so Institutsleiter Prof. Peinl. Die Folge: Modelle „raten“ oder greifen auf gelernte Erwartungen zurück – mit teils erstaunlich falschen Ergebnissen.

Die Lösung aus Hof: Ein künstlicher Datensatz

Um dieses Problem gezielt anzugehen, hat das iisys den Datensatz SITUATE entwickelt. Statt auf reale Fotos zu setzen, erzeugen die Forschenden künstliche 3D-Szenen mit klar definierten Eigenschaften. „Wir wollten eine Umgebung schaffen, in der wir genau kontrollieren können, was im Bild passiert – und was nicht“, sagt Prof. Dr. René Peinl. In den so geschaffenen Szenen befinden sich geometrische Objekte wie Würfel, Kugeln oder Zylinder, sind Positionen eindeutig festgelegt (z. B. „links vom Tisch“), so dass sich gezielt Fragen stellen lassen, etwa nach Farbe, Anzahl oder Ort der Objekte. So entsteht ein Trainingsumfeld, das nicht auf Zufällen basiert, sondern gezielt bestimmte Fähigkeiten trainiert.

Lernen durch Struktur statt durch Zufall

Ein besonderer Ansatz des Projekts ist die Art, wie die KI das Zählen lernt. Neben einfachen Antworten werden auch ausführliche Erklärungen genutzt, bei denen die KI Schritt für Schritt beschreibt, was sie sieht und wie sie zählt. Ein Beispiel: „Auf dem Tisch sind zwei Objekte, daneben drei – insgesamt also fünf.“ Dieser sogenannte „Chain-of-Thought“-Ansatz zeigt Wirkung – zumindest bei größeren Zahlen. „Wir sehen, dass die Modelle durch diese strukturierte Herangehensweise deutlich besser werden, wenn es um komplexere Zählaufgaben geht“, so Peinl. Allerdings hat auch diese Methode Grenzen: Bei kleinen Zahlen neigt die KI mit dieser Logik dazu, zusätzliche Objekte „hinzuzudichten“, um ihrer eigenen Linie treu zu bleiben.

Bessere Ergebnisse – und neue Erkenntnisse

Die Experimente zeigen deutlich: KI-Modelle, die mit SITUATE trainiert wurden, verallgemeinern besser. „Eine Kombination verschiedener Datensätze liefert in den Testreihen die besten Ergebnisse. Wir sehen aber: Die Art des Trainings beeinflusst stark, wie die KI denkt. Besonders spannend ist: Die Modelle zeigen Verhaltensmuster, die an Menschen erinnern. Kleine Mengen werden schnell erfasst, größere erfordern strukturierte Strategien“, so Prof. Peinl. Gleichzeitig wird deutlich, dass KI häufig keine „echte“ Zahlvorstellung entwickelt, sondern visuelle Muster lernt.

Bedeutung für die Zukunft der KI

Die Forschung aus Hof zeigt auch: Fortschritte in der Künstlichen Intelligenz hängen nicht nur von immer größeren Modellen ab – sondern vor allem von besseren Daten und durchdachten Trainingsmethoden. „Unser Datensatz zeigt, dass man gezielt an den Schwächen der Modelle arbeiten kann und synthetische, also Computer-generierte Daten nicht automatisch schlecht sind“, betont Peinl.

Ein Baustein für verlässlichere KI-Systeme

Ob in der Industrie, der Medizin oder der Logistik – viele Anwendungen sind darauf angewiesen, dass KI nicht nur erkennt, sondern auch präzise zählt und korrekt interpretiert. Mit SITUATE leistet das iisys der Hochschule Hof einen wichtigen Beitrag, genau diese Fähigkeiten zu verbessern. Nachdem der erste Test erfolgreich war, entsteht gerade ein zweiter deutlich diverserer Datensatz, mit dem noch differenzierte Zählstrategien gelernt werden können.

Wenn KI nicht zählen kann – und was Forschende der Hochschule Hof dagegen tun

Ähnliche Pressemitteilungen im idw