Schneller rechnen: KI gekoppelt mit klassischer Physik
Ein neuer maschineller Lern-Algorithmus simuliert komplexe Quantensysteme
Atome sind komplexe Quantensysteme, die aus einem positiv geladenen Kern und negativ geladenen Elektronen bestehen. Wenn mehrere Atome sich zu einem Molekül verbinden, interagieren die Elektronen der beteiligten Atome auf komplizierte Weise, was die Computersimulation von Molekülen zu einem der schwierigsten Probleme der modernen Wissenschaft macht. Forscher des Berlin Institute for the Foundations of Learning and Data (BIFOLD) an der TU Berlin und von Google DeepMind haben nun einen neuartigen Algorithmus entwickelt, der hochpräzise Simulationen der Dynamik eines oder mehrerer Moleküle über lange Zeiträume ermöglicht. Ihre Forschungsarbeit wurde jetzt in Nature Communications veröffentlicht.
Diese sogenannten Molekulardynamik-Simulationen helfen nicht nur dabei, die Eigenschaften von Molekülen und Materialien zu verstehen, sie könnten auch die Arzneimittelentwicklung oder das Materialdesign, zum Beispiel für den Einsatz in Solarzellen und Batterien, revolutionieren. Methoden zur Berechnung der Wechselwirkungen zwischen Elektronen basieren auf der Lösung der sogenannten Schrödinger-Gleichung. Die Schrödinger-Gleichung beschreibt die Energieniveaus, die ein Quantensystem – wie zum Beispiel Atome oder Moleküle – annehmen kann. Dies ist eine notorisch schwierige Aufgabe, und die Lösung dieser Gleichung für Moleküle mit mehr als ein paar Dutzend Atomen kann bereits mehrere Tage dauern - selbst auf leistungsstarken Computern. Um die Sache noch komplizierter zu machen, muss die Schrödinger-Gleichung für Molekulardynamik-Simulationen über lange Zeiträume sogar bis zu mehrere Millionen Mal gelöst werden. Das Ausmaß der dafür benötigten Rechenzeit übersteigt schnell die heute verfügbaren Rechenressourcen.
„Die Simulation solcher Wechselwirkungen und die daraus resultierenden Vorhersagen für komplexe Prozesse wie Proteinfaltung oder die Bindung zwischen einzelnen Molekülen ist ein lang gehegter Traum vieler Chemiker*innen und Materialwissenschaftler*innen und würde viele teure und arbeitsintensive Experimente ersparen“, erklärt BIFOLD-Forscher Thorben Frank.
In den letzten Jahren haben Methoden des maschinellen Lernens (ML) diesen Traum in greifbare Nähe gerückt: Anstatt die Schrödinger-Gleichung explizit zu lösen, sagen sie das Gesamtergebnis der relevanten elektronischen Wechselwirkungen auf atomarer Ebene vorher und das mit deutlich geringerer Rechenleistung. Der Clou des Verfahrens besteht darin, effiziente Algorithmen zu finden, um dem maschinellem Lern-System beizubringen, wie die Elektronen interagieren, ohne sie explizit zu modellieren. Um die Komplexität dieser Aufgabe zu reduzieren, nutzen viele Lernalgorithmen die Tatsache, dass physikalische Systeme sogenannten Invarianzen folgen. Einfach ausgedrückt:
Bestimmte Eigenschaften von Molekülen bleiben gleich, wenn diese Moleküle im Raum bewegt werden, die Abstände zwischen den einzelnen Atomen dieser Moleküle jedoch gleichbleiben – was im Umkehrschluss bedeutet, dass die ML-Methode in diesen Fällen nichts Neues lernen muss. Allerdings ist die Art und Weise, wie diese Invarianzen typischerweise in ML-Modelle eingebaut werden, immer noch rechentechnisch aufwändig und begrenzt dadurch die Geschwindigkeit, mit der solche Modelle Molekulardynamik-Simulationen durchführen können.
Um dieses Problem zu lösen, haben die BIFOLD-Wissenschaftler einen neuen Lern-Algorithmus entwickelt, der von Anfang an Invarianzen von anderen Informationen über das chemische System entkoppelt. Ältere Methoden erforderten bislang, dass invariante Komponenten aus jeder einzelnen Operation innerhalb des Modells extrahiert werden. Das neue ML-Modell vereinfacht diesen Ansatz und reserviert die zeitaufwendigsten Rechenoperationen für die relevanten physikalischen Informationen. Damit konnten die Gesamt-Rechenkosten drastisch reduziert werden. „Simulationen, die Monate oder sogar Jahre auf Hochleistungsrechner-Clustern benötigten, können nun innerhalb weniger Tage auf einem einzelnen Computerknoten durchgeführt werden. Das eröffnet völlig neue Möglichkeiten, zum Beispiel die genaue Vorhersage der Ergebnisse von Experimenten. Dieser Effizienzsprung ermöglicht Simulationen über lange Zeiträume, die notwendig sind, um die Struktur, Dynamik und Funktion von atomaren Systemen zu verstehen. Dadurch werden tiefe Einblicke in die komplexesten und grundlegendsten Prozesse der Natur ermöglicht“, sagt BIFOLD-Forscher Dr. Stefan Chmiela, der das Forschungsprojekt leitete. In Zukunft könnte die exakte Simulation der Interaktion von Molekülen mit Proteinen im menschlichen Körper es ermöglichen, neue Medikamente zu entwickeln, ohne vorher zeit-, material- und kostenintensive Experimente durchführen zu müssen.
Um potenzielle Anwendungen des Algorithmus zu demonstrieren, nutzte das Team die neue ML-Methode, um die stabilste Version von Docosahexaensäure zu identifizieren, einer Fettsäure, die eine primäre Strukturkomponente im menschlichen Gehirn darstellt. Diese Aufgabe erfordert das Scannen von Zehntausenden potenziellen Versionen mit hoher Präzision. Bisher wäre eine solche Analyse mit traditionellen quantenmechanischen Methoden undurchführbar gewesen. Prof. Dr. Klaus-Robert Müller, Co-Direktor von BIFOLD und Principal Scientist bei Google DeepMind: „Diese Arbeit demonstriert das Potenzial, fortschrittliche Techniken des maschinellen Lernens mit physikalischen Prinzipien zu kombinieren, um langjährige Herausforderungen in der computergestützten Chemie zu überwinden. Es setzt unsere bisherige Forschung fort, die sich darauf konzentriert, ML-Ansätze für realistische chemische Systeme von praktischem Interesse zu skalieren.“
Dr. Oliver Unke, Senior Research Scientist bei Google DeepMind, kommentiert: „Anfang dieses Jahres ist es uns gelungen, Modelle auf Tausende von Atomen zu skalieren, aber mit neuen Fortschritten wie diesem könnte es möglich werden, noch größere Atomzahlen zu erreichen.“ Während Simulationen mit Zehntausenden bis Hunderttausenden von Atomen nun zugänglich werden, bestehen einige Strukturen aus Millionen von Atomen oder mehr. Die nächste Generation von Algorithmen muss lernen, solche Systemgrößen genau zu simulieren, was eine korrekte Beschreibung zusätzlicher, komplexer, langreichweitiger physikalischer Wechselwirkungen erfordert.
Publikation: https://doi.org/10.1038/s41467-024-50620-6
Weitere Informationen erteilt Ihnen gern:
Dr. Stefan Chmiela
TU Berlin/BIFOLD
E-Mail: stefan@chmiela.com