Mit KI sicher vom Text zur strukturierten Info
Bonner Forschende prüfen Einsatz verschiedener großer Sprachmodelle zur Analyse von radiologischen Befunden: In Krankenhäusern sind Künstliche Intelligenz (KI) und vor allem (Large Language Models, kurz LLMs) LLMs, welche auch die Grundlage für ChatGPT darstellen, immer mehr gefragt. Der Schutz der Patientendaten muss dabei aber immer gegeben sein.
Forschende des Universitätsklinikums Bonn (UKB) und der Universität Bonn konnten jetzt zeigen, dass lokale LLMs, bei deren datenschutzsicheren Verwendung alle Daten innerhalb der Klinik verbleiben, dabei helfen können radiologische Befunde zu strukturieren. Dazu haben sie verschiedene LLMs auf öffentlichen Befunden ohne Datenschutz und auf datengeschützten Befunden verglichen. Kommerzielle Modelle mit Datenübertrag auf externe Server zeigen dabei keinen Vorteil zu datenschutzkonformen Modellen. Die Ergebnisse sind jetzt im Fachjournal „Radiology" erschienen.
Ordnung muss sein. Nicht nur auf dem OP-Tisch oder im Büro, sondern auch bei Daten. Strukturierte Befunde sind beispielsweise sowohl für Ärzte hilfreich als auch für die weitere Verwendung in Datenbanken für die Forschung. Später können solche strukturierten Daten auch zum Training von weiteren KI Modellen zur bildbasierten Diagnose genutzt werden. In der Praxis werden Befunde allerdings meist in Freitextform verfasst, das verkompliziert die Weiterverwendung. Genau hier setzt die Anwendung von KI, genauer LLMs, an.
Offene und geschlossene Modelle
LLMs kann man in zwei Kategorien unterscheiden: Die geschlossenen Modelle sind die kommerziellen, bekannten KI-Varianten, die unter anderem auch bei Chatbots wie Chat-GPT und Co. eingesetzt werden. Offene Modelle, wie die Llama-Modelle von Meta sind eine Option, die auf klinikintern Servern ausgeführt und sogar weiter trainiert werden können. Dabei bleiben alle Daten lokal gespeichert, was die lokale Verwendung offener LLMs in Bezug auf Datensicherheit vorteilhaft macht. „Das Problem bei den kommerziellen, geschlossenen Modellen ist, dass man, um diese zu nutzen, die Daten auf externe Server übertragen muss, welche sich häufig sogar außerhalb der EU befinden. So etwas ist mit Patientendaten nicht zu empfehlen“, betont Prof. Julian Luetkens, komm. Direktor der Klinik für Diagnostische und Interventionelle Radiologie am UKB.
„Aber sind alle LLMs gleich gut geeignet den medizinischen Inhalt radiologischer Befunde zu verstehen und zu strukturieren? Um herauszufinden, welches LLM für eine Klinik geeignet ist, haben wir verschiedene offene und geschlossene Modelle getestet“, erläutert Dr. Sebastian Nowak, Erst- und Korrespondenzautor der Studie und Postdoc der Universität Bonn an der Klinik für Diagnostische und Interventionelle Radiologie des UKB. „Zusätzlich hat uns interessiert, ob man mit wenigen bereits strukturierten Befunden offene LLMs effektiv vor Ort in der Klinik weiterentwickeln kann.“
Das Forschungsteam führte daher eine Analyse von 17 offenen und vier geschlossenen Sprachmodellen durch. Alle sollten tausende Röntgenberichte in Freitextform analysieren. Für die Auswertung wurden sowohl öffentliche radiologische Befunde in englischer Sprache und ohne Datenschutz, als auch datengeschützte Befunde aus dem UKB in deutscher Sprache genutzt.
Training macht den Unterschied
Die Ergebnisse zeigen, dass im Fall der Befunde ohne Datenschutz die geschlossenen Modelle keine Vorteile gegenüber manchen offenen LLMs aufweisen. Bei der direkten Anwendung ohne Training waren große, offene LLMs besser als kleine, offene LLMs. Die Verwendung bereits strukturierter Befunde als Trainingsdaten für offene LLMs führte zu einer effektiven Verbesserung der Qualität in der Informationsverarbeitung, schon mit wenigen manuell vorbereiteten Berichten. Durch das Training verringerte sich zudem der Unterschied zwischen großen und kleinen LLMs.
„Bei einem Training mit über 3.500 strukturierten Befunden gab es keinen relevanten Unterschied mehr zwischen dem größten offenen LLM und einem 1.200 Mal kleineren Sprachmodel.“, so Nowak. „Insgesamt lässt sich folgern, dass offene LLMs mit geschlossenen mithalten können und den Vorteil aufweisen, lokal und datenschutzsicher weiterentwickelt werden zu können.“
Diese Entdeckung birgt das Potenzial, den reichen Datenschatz klinischer Datenbanken für umfassende epidemiologische Studien und zur Forschung über krankheitsvorhersagende KI nutzbar zu machen. „Letztendlich kommt das dem Patienten zugute, all dies sogar unter strenger Beachtung des Datenschutzes“, erklärt Nowak. „Wir wollen anderen Kliniken ermöglichen, unsere Forschung direkt zu nutzen, und haben deshalb den Programmcode und die Methoden zur Nutzung und zum Training unter offener Lizenz veröffentlicht."
https://github.com/ukb-rad-cfqiai/LLM_based_report_info_extraction/
Förderung: Diese Studie wurde durch den Open-Access-Publikationsfonds der Rheinischen Friedrich-Wilhelms-Universität Bonn und durch das Land Nordrhein-Westfalen (SIM-1-1, Innovative Secure Medical Campus) unterstützt.
Publikation: Sebastian Nowak et al.: Privacy-ensuring Open-weights Large Language Models Are Competitive with Closed-weights GPT-4o in Extracting Chest Radiography Findings from Free-Text Reports; Radiology; DOI: https://doi.org/10.1148/radiol.240895
Pressekontakt:
Dr. Inka Väth
stellv. Pressesprecherin am Universitätsklinikum Bonn (UKB)
Stabsstelle Kommunikation und Medien am Universitätsklinikum Bonn
Telefon: (+49) 228 287-10596
E-Mail: inka.vaeth@ukbonn.de
Zum Universitätsklinikum Bonn: Im UKB finden pro Jahr etwa 500.000 Behandlungen von Patient*innen statt, es sind ca. 9.500 Mitarbeiter*innen beschäftigt und die Bilanzsumme beträgt 1,8 Mrd. Euro. Neben den 3.500 Medizin- und Zahnmedizin-Studierenden werden pro Jahr 550 Personen in zahlreichen Gesundheitsberufen ausgebildet. Das UKB steht in der Focus-Klinikliste auf Platz 1 unter den Universitätsklinika (UK) in NRW, hatte in 2023 in der Forschung über 100 Mio. Drittmittel und weist den zweithöchsten Case Mix Index (Fallschweregrad) in Deutschland auf. Das F.A.Z.-Institut hat das UKB mit Platz 1 unter den Uniklinika in der Kategorie „Deutschlands Ausbildungs-Champions 2024“ ausgezeichnet.
Wissenschaftlicher Ansprechpartner:
Dr. Sebastian Nowak
Data Scientist, Universität Bonn
Klinik für Diagnostische und Interventionelle Radiologie
Universitätsklinikum Bonn
E-Mail: Sebastian.Nowak@ukbonn.de
Originalpublikation:
Sebastian Nowak et al.: Privacy-ensuring Open-weights Large Language Models Are Competitive with Closed-weights GPT-4o in Extracting Chest Radiography Findings from Free-Text Reports; Radiology; DOI: 10.1148/radiol.240895
Weitere Informationen:
https://doi.org/10.1148/radiol.240895 Publikation