Neues KI-Modell TabPFN ermöglicht schnellere und präzisere Vorhersagen auf kleinen Tabellendatensätzen
• Ein Team um Frank Hutter, Professor für Maschinelles Lernen an der Universität Freiburg, erleichtert und verbessert Vorhersage von Tabellendaten, vor allem bei kleinen Datensätzen mit weniger als 10.000 Datenpunkten.
• Das neue KI-Modell TabPFN wird vor seinem Einsatz auf synthetisch erzeugten Daten trainiert und lernt dadurch, mögliche kausale Zusammenhänge zu evaluieren und für Vorhersagen zu nutzen.
• Hutter: „Viele Fachdisziplinen können von dieser Methode profitieren und damit auch aus wenigen Daten wichtige Zusammenhänge schneller und zuverlässiger erkennen als bisher.“
Lücken in Datensätzen füllen oder Ausreißer erkennen – das kann der Machine Learning-Algorithmus TabPFN, den ein Team um Prof. Dr. Frank Hutter von der Universität Freiburg entwickelt hat. Diese Künstliche Intelligenz (KI) nutzt Lernmethoden, die von großen Sprachmodellen inspiriert sind. TabPFN lernt kausale Zusammenhänge aus synthetischen Daten und liegt dadurch mit seinen Vorhersagen häufiger richtig als bisher standardmäßig verwendete Algorithmen. Die Ergebnisse wurden in der Fachzeitschrift Nature veröffentlicht. Beteiligt war neben der Universität Freiburg das Universitätsklinikum Freiburg, die Charité – Universitätsmedizin Berlin, das Freiburger Startup PriorLabs sowie das ELLIS Institut Tübingen.
Datensätze, sei es zur Wirkung bestimmter Medikamente oder zu Teilchenbahnen in Beschleunigern am CERN, sind selten vollständig oder fehlerfrei. Deshalb besteht ein wichtiger Teil der wissenschaftlichen Datenanalyse daraus, Ausreißer als solche zu erkennen oder fehlende Datenpunkte durch sinnvolle Abschätzungen zu ergänzen. Bisherige Algorithmen wie XGBoost funktionieren gut bei großen Datensätzen, sind jedoch bei kleineren Datenmengen oft unzuverlässig.
Mit dem Modell TabPFN lösen Hutter und sein Team dieses Problem, indem sie den Algorithmus vor dessen Einsatz auf künstlich erstellten Datensätzen trainieren, die realen Szenarien nachempfunden sind. Die Wissenschaftler erzeugen dazu Datentabellen, in denen die Einträge der einzelnen Tabellenspalten kausal miteinander zusammenhängen. TabPFN wurde mit 100 Millionen solcher synthetischer Datensätze trainiert. Durch dieses Training lernt das Modell, verschiedene mögliche kausale Zusammenhänge zu evaluieren und für seine Vorhersagen zu nutzen.
Das Modell funktioniert insbesondere bei kleinen Tabellen mit weniger als 10.000 Zeilen, vielen Ausreißern oder einer großen Zahl fehlender Werte besser als andere Algorithmen. Zum Beispiel benötigt TabPFN nur 50 % der Datenmenge, um die gleiche Genauigkeit wie das bisher beste Modell zu erreichen. Zudem ist TabPFN im Umgang mit neuen Arten von Daten effizienter als bisherige Algorithmen. Statt bei jedem Datensatz einen neuen Lernprozess zu beginnen, kann das Modell auf ähnliche Datensätze angepasst werden. Dieser Vorgang ähnelt der Anpassung von Sprachmodellen mit offenen Gewichten wie das von Meta entwickelte Llama. Auch ermöglicht das Modell, aus einem Datensatz die Wahrscheinlichkeitsdichte abzuleiten und daraus wiederum neue Daten mit ähnlichen Eigenschaften zu erzeugen.
„Mit TabPFN verlässlich und schnell Vorhersagen aus Tabellendaten berechnen zu können, ist für viele Fachdisziplinen ein Gewinn – von der Biomedizin über die Wirtschaftswissenschaften bis hin zur Physik“, sagt Hutter. „TabPFN liefert schneller bessere Ergebnisse und ist durch seinen geringen Bedarf an Ressourcen und Daten ideal für kleine Unternehmen und Teams geeignet.“ Den Code und Hinweise dazu, wie sie ihn nutzen können, finden Interessierte hier. In einem nächsten Schritt werden die Forschenden die KI weiterentwickeln, um auch bei größeren Datensätzen bestmögliche Vorhersagen machen zu können.
• Originalpublikation: N. Hollmann, S. Müller, L. Purucker, A. Krishnakumar, M. Körfer, Shi Bin Hoo, R. T. Schirrmeister, F. Hutter: Accurate Predictions on Small Data with a Tabular Foundation Model. Nature, 2025. URL: https://www.nature.com/articles/s41586-024-08328-6. DOI: 10.1038/s41586-024-08328-6
• Noah Hollmann ist wissenschaftlicher Mitarbeiter an der Professur für Maschinelles Lernen an der Universität Freiburg, Student der Charité – Berliner Universitätsmedizin und am Berlin Institute of Health at Charité (BIH), sowie Gründer von PriorLabs. Samuel Müller und Lennart Purucker promovieren bei Prof. Dr. Frank Hutter, Arjun Krishnakumar ist wissenschaftlicher Mitarbeiter bei Hutters Professur. Max Körfer war ebenfalls Doktorand bei Hutter, Shi Bin Hoo arbeitet als studentische Hilfskraft an der Professur für Maschinelles Lernen. Dr. Robin Tibor Schirrmeister ist Wissenschaftlicher Mitarbeiter an der Klinik für Diagnostik und Interventionelle Radiologie am Universitätsklinikum Freiburg. Prof. Dr. Frank Hutter leitet neben seiner Professur an der Universität Freiburg eine Forschungsgruppe am ELLIS Institut Tübingen und ist Gründer von PriorLabs.
• Die Forschung wurde gefördert vom Land Baden-Württemberg und die Deutsche Forschungsgemeinschaft (DFG) durch den Hochleistungsrechner NEMO (INST 39/963-1 FUGG); durch die DFG unter der Projektnummer 417962828 sowie als Teil des Sonderforschungsbereichs SmallData, Projektnummer 499552394; und durch die Europäische Union mit dem ERC Consolidator Grant DeepLearning 2.0, Nr. 101045765.
Wissenschaftlicher Ansprechpartner:
Prof. Dr. Frank Hutter
fh@cs.uni-freiburg.de
Originalpublikation:
https://www.nature.com/articles/s41586-024-08328-6
Weitere Informationen:
https://uni-freiburg.de/neues-ki-modell-tabpfn-ermoeglicht-schnellere-und-praezisere-vorhersagen-auf-kleinen-tabellendatensaetzen/