AutoPrompt will ChatGPT bei der Analyse klinischer Daten mit gezielterem Prompting verbessern
Klinische Studien enthalten große Mengen an Daten und Texten. Sprachmodelle wie ChatGPT helfen Medizinern und Klinikpersonal dabei, mittels natürlicher Sprache Informationen gezielt abzurufen. Doch wie gut können KI-Bots logische Zusammenhänge analysieren und die richtigen Schlussfolgerungen ziehen? Hier setzt das Forschungsprojekt AutoPrompt an. Es will Fehlern und Halluzinationen der Systeme beim Schlussfolgern entgegenwirken. Dazu entwickeln die Forschenden ein System, das die Fähigkeiten großer Sprachmodelle mit menschlicher Interaktion kombiniert. So soll die Leistung von ChatGPT beim Verstehen natürlicher Sprache und der Inferenz im Kontext des Gesundheitswesens verbessert werden.
Im Gesundheitswesen gewinnen Sprachmodelle aufgrund ihrer Fähigkeit zur automatischen Verarbeitung großer Mengen unstrukturierter oder halbstrukturierter Daten zunehmend an Aufmerksamkeit. „Mit ihrem Aufkommen wächst unser Interesse am Verständnis ihrer Fähigkeiten für Aufgaben wie die Inferenz bei natürlicher Sprache als Datengrundlage“, sagt die Wissenschaftlerin Siting Liang, die das Projekt AutoPrompt im Forschungsbereich Interaktives Maschinelles Lernen im DFKI Niedersachsen vorantreibt. Bei der Natural Language Inferenz (NLI) gehe es darum, so Liang, zu bestimmen, „ob eine Behauptung angesichts einer Prämisse oder einer Reihe von Fakten eine zutreffende Schlussfolgerung oder aber einen Widerspruch darstellt“. Das Projekt AutoPrompt läuft von Januar bis Dezember 2024 und wird durch einen Grant von Accenture, einem der weltweit führenden Beratungs-, Technologie- und Outsourcing-Unternehmen, finanziert.
Siting Liang erläutert ihr Vorgehen an einem Beispiel. Ausgangspunkt ist die Behauptung, dass Patienten mit Hämophilie (Bluterkrankheit) von einer Studie ausgeschlossen sind, wenn bestimmte Prämissen zutreffen wie beispielsweise ein erhöhtes Risiko zu einer Blutung. „Diese Aufgabe erfordert, dass die Modelle den Inhalt der Behauptung verstehen, relevante Hinweise aus wissenschaftlichen Artikeln extrahieren und die Übereinstimmung zwischen der Behauptung und den Hinweisen bewerten, um auf den Wahrheitsgehalt der Behauptung zu schließen“, erläutert sie.
Prompting optmieren
In einem ersten Schritt will die Computerlinguistin das Prompting optimieren, also die Anweisung an den Chatbot, um eine bestimmte Antwort zu erhalten. Dazu erforscht sie verschiedene Strategien wie beispielsweise Chain-of-Thoughts-Methoden. Dabei werden Anweisungen mit Zwischenschritten gegeben, die bestimmten Pfaden folgen und Gedankenketten auslösen. So soll dem Bot ein gewisses Maß an Argumentationsfähigkeit entlockt werden. „ChatGPT mag zwar in der Lage sein, relevante Sätze aus einem Kontext zu erkennen, aber genaue logische Schlussfolgerungen zu ziehen, erfordert ein tieferes Verständnis von Domänenwissen und natürlicher geschriebener Sprache“, sagt Liang.
In einem zweiten Schritt wird sie die Leistung von ChatGPT bei NLI-Aufgaben unter Verwendung verschiedener Datensätze bewerten und Verbesserungen vorschlagen. „Unser Ziel ist es, den Sprachmodellen mehr domänenspezifische Quellen als Kontext zur Verfügung zu stellen“, so die Wissenschaftlerin. Dazu sollen die am besten geeigneten Prompting-Strategien und ein Generierungsrahmen implementiert werden, der einen effizienteren Zugang zu zusätzlichem Wissen ermöglicht.
Studie mit Medizinstudierenden
AI Human Collaboration, also die Zusammenarbeit zwischen System und Mensch, in diesem Falle Studierenden der Medizin, spielt im Projekt eine große Rolle. Dafür hat Siting Liang eine Studie innerhalb des Projektes angelegt, für die sie derzeit noch etwa zehn Teilnehmende sucht. Gegeben ist die Behauptung, dass Patienten mit der Diagnose eines bösartigen Hirntumors von einer Primärstudie ausgeschlossen sind, sofern Kriterien wie zum Beispiel eine Chemotherapie zutreffen. Die angehenden Medizinerinnen und Mediziner werden in zwei Gruppen eingeteilt, innerhalb derer sie zwei Stunden lang ihr Wissen einbringen und Entscheidungen treffen über die Beziehung zwischen der Behauptung und den Kriterien. Gruppe 1 bewertet die vom KI-System vorgegebenen Entscheidungen und Gruppe 2 korrigiert Fehler des Systems.
„Wenn wir die KI-Systeme verbessern wollen, benötigen wir das Feedback durch den Menschen“, sagt Siting Liang, die sich schon in früheren Projekten des Forschungsbereiches mit medizinischen Daten beschäftigt hat. Systeme könnten medizinische Texte und Daten in der Regel sehr gut analysieren, weiß Liang: „Aber ebenso ist es möglich, dass sie halluzinieren und uns falsche Schlussfolgerungen liefern. AutoPrompt soll helfen, eine höhere Genauigkeit der Antworten zu erzielen.“
Wissenschaftlicher Ansprechpartner:
Siting Liang
Siting.Liang@dfki.de
Prof. Dr. Daniel Sonntag
Daniel.Sonntag@dfki.de