Erklärbare KI erhellt den Lauf der Geschichte
Wissenschaftliche Erkenntnisse verbreiten sich eher in Form von Adaption anstatt als Revolution
Wie hat sich wissenschaftliche Erkenntnis im Laufe der Jahrhunderte durchgesetzt? Darüber mehr zu erfahren ist ein lang gehegter Traum vieler Historiker*innen. Ein Traum, der aufgrund der schieren Fülle historischer Materialien und begrenzter menschlicher Kapazitäten, diese zu analysieren, unerfüllbar schien. Die Digitalisierung vieler historischer Archive eröffnet jetzt jedoch ganz neue Möglichkeiten für KI-unterstützte Analysen historischer Quellen. Forscher*innen des Berlin Institute for the Foundations of Learning and Data (BIFOLD) und des Max-Planck-Instituts für Wissenschaftsgeschichte nutzten maschinelles Lernen und Techniken der sogenannten erklärbaren KI, um die historische Analyse der „Sacrobosco-Sammlung“ voranzutreiben und ganz neue Erkenntnisse bezüglich der Ausbreitung von Wissen zu generieren. Ihre Ergebnisse wurden nun in den renommierten Fachmagazin Science Advances veröffentlicht.
Die „Sacrobosco-Sammlung“ umfasst 359 frühneuzeitliche Druckausgaben astronomischer Lehrbücher europäischer Universitäten (1472–1650) mit insgesamt 76.000 Seiten. Ein Datenvolumen, das sich menschlicher Analyse entzieht. „Wir haben ein unüberwachtes maschinelles Lernmodell entwickelt, das die Analyse dieser historischen Quellen mit Hilfe unseres sogenannten Atomisierungs-Rekompositions-Ansatzes vornimmt“, erklärt Matteo Valleriani, Professor am Max-Planck-Institut für Wissenschaftsgeschichte und BIFOLD Fellow. „Unsere Analyse konnte spezifische zeitliche und geografische Muster im Wissenswandel aufdecken. So können wir die bedeutende Rolle astronomischer Lehrbücher bei der Gestaltung einer einheitlichen mathematischen Kultur belegen, die durch den Wettbewerb zwischen Bildungseinrichtungen und Marktdynamiken befeuert wurde.“
Seit der Antike, insbesondere während des Spätmittelalters und der frühen Neuzeit, wurden die mathematischen Aspekte der Astronomie in Form von numerischen Tabellen dargestellt. Eine astronomische Berechnungstabelle kann als Ausdruck einer modernen mathematischen Formel verstanden werden, wobei Spalten Eingabewerte und entsprechende Ausgabewerte anzeigen. Angesichts der Bedeutung der Astronomie in Bildung, Kultur und Alltagsleben dieser Epochen ist die Menge an Tabellen, die zur historischen Untersuchung zur Verfügung steht, enorm. Die hohe Heterogenität, mit der ein und dieselbe in unterschiedlichen Ländern und Epochen konzipiert, berechnet und dargestellt wurde, macht die Untersuchung dieser grundlegenden Ressourcen in großem Maßstab oft praktisch unmöglich.
„Die Analyse historischer Daten in großem Umfang stellt aus der Perspektive des maschinellen Lernens eine einzigartige Herausforderung dar, insbesondere aufgrund der erheblichen Heterogenität und Lücken in Bezug auf Daten und Labels“, erklärt Prof. Klaus-Robert Müller, Co-Direktor von BIFOLD und Leiter der Arbeitsgruppe Maschinelles Lernen an der TU Berlin. „Wir haben die Atomisierungs-Rekompositions-Methode entwickelt, die die kompositionelle Struktur der Tabellen dazu nutzt, eine unüberwachte maschinelle Lernmethoden – unterstützt von erklärbarer KI – zur Analyse einzusetzen.“
Dazu nutzen die Wissenschaftler*innen einen Ansatz, der anfänglich die Zusammensetzung numerischer Merkmale der Tabellen in ihre Grundkomponenten zerlegt (atomisiert). So wird zum Beispiel die Aufgabe, die Zahl 15 zu erkennen, in die Erkennung der Ziffern 1 und 5 aufgeteilt. Aus der Perspektive des maschinellen Lernens hilft dieser Ansatz, die große Vielfalt an Layouts, Schriftarten und Stilen effizient zu modellieren und gleichzeitig weniger annotierte Labels zu benötigen. Ein anschließender Rekompositionsschritt bietet die Möglichkeit, Expertenwissen einzubeziehen und relevante Merkmale zu definieren, die zur Lösung der endgültigen Aufgabe erforderlich sind. Für die Tabellenseiten in der Sacrobosco-Sammlung führte dies zu interpretierbaren Karten von Bigrams (Zweierkombination von Zeichen), die spezifische Bigrams wie '15' identifizieren, was bei der Erkennung von Zahlen wie '1547' hilft. Das Erkennen von oft hunderten dieser Bigrams ergibt einen numerischen Fingerabdruck für jede Seite, wodurch semantisch ähnliche Inhalte aus anderen Publikationen abgerufen werden können. „Unser auf maschinellem Lernen basierender Ansatz vertieft unser Verständnis, indem er Erkenntnisse im historischen Kontext verankert und traditionellen Methoden wie das ‚Close Reading‘ integriert“, erklärt BIFOLD-Forscher und Erstautor Dr. Oliver Eberle.
Anhand dieses Verfahrens wurden zwei spezifische Fallstudien durchgeführt. Die erste untersucht die Einteilung der als bewohnbar betrachteten Bereiche der Erdoberfläche in Klimazonen. Die zweite Fallstudie konzentriert sich auf die sogenannten Sonnen-Tierkreis-Tabellen, die die Werte anzeigen, die notwendig sind, um die Position der Sonne im Tierkreis im Laufe des Jahres zu bestimmen. „Insgesamt zeigen die historischen Ergebnisse, dass es keine wissenschaftliche Revolution gegeben hat, sondern vielmehr eine Bestätigung und innovative Bereicherung der alten Konzepte. Dies ist ein besonders relevantes Ergebnis für die Wissenschaftsgeschichte insgesamt“, schließt Matteo Valleriani.
Weiterführende Informationen zu den Forschungsergebnissen finden Sie hier: https://www.bifold.berlin/news-events/news/view/news-detail/explainable-ai-illuminates-the-course-of-history.
Publikationen:
https://www.science.org/doi/10.1126/sciadv.adj1719
https://sphaera.mpiwg-berlin.mpg.de/publications/
Projekt:
https://sphaera.mpiwg-berlin.mpg.de
Database:
http://db.sphaera.mpiwg-berlin.mpg.de/resource/Start
Weitere Informationen erteilen Ihnen gern:
Prof. Dr. Klaus-Robert Müller
BIFOLD/TU Berlin
Email: Klaus-robert.mueller@tu-berlin.de
Prof. Dr. Matteo Valleriani
Max-Planck-Institut für Wissenschaftsgeschichte
Email: valleriani@mpiwg-berlin.de