Besteht ChatGPT4 Kryptografie-Prüfungen?
Drei Experten der Universität Siegen erforschen, wie gut ChatGPT4 in realen Prüfungen abschneiden würde – die Ergebnisse sind überraschend.
Künstliche Intelligenz hält immer stärker Einzug in unser Leben. Der amerikanische Tech-Gigant Apple will künftig auch die Nutzung des Chatbots ChatGPT der Firma Open AI in seinen iPhones ermöglichen. Doch ist ChatGPT auch in der Lage, drei vollständige Kryptografie-Prüfungen zu bestehen? Dieses Experiment starteten an der Uni Siegen die drei Forscher Prof. Bernhard Esslinger, Dr. Nils Kopal und Dr. Vasily Mikhalev.
Prof. Esslinger und Dr. Kopal forschen im Bereich der Kryptoanalyse und IT-Sicherheit an der Universität Siegen und gehören dem Projekt „DECRYPT“ an, gefördert durch den Swedish Research Council. Parallel betreuen sie mit einem internationalen Team die kostenlose E-Learning-Plattform CrypTool, über die Studierende, Schüler*innen und Interessierte kryptografische Algorithmen und Verschlüsselungen durch Ausprobieren kennenlernen können. Jetzt wollte das Team herausfinden, ob künstliche Intelligenz sogar Prüfungen im Bereich der Kryptografie lösen könnte.
Für das Experiment wurden ChatGPT drei unterschiedlich schwere Prüfungen vorgelegt: eine mündliche Prüfung aus dem Bachelorstudium, eine schriftliche Klausur aus dem Masterstudium sowie eine Reihe aus komplexen, umfangreichen Hausaufgaben aus dem Masterstudium. Bei der Korrektur werteten Prof. Esslinger und sein Team die Antworten nach denselben Kriterien aus, wie sie es auch bei Studierenden machen. Um die Neutralität zu wahren, griffen die Kryptologen auf Prüfungsunterlagen verschiedener Lehrstühle aus Hessen und Baden-Württemberg zurück.
„Das neue ChatGPT trainiert mit dem gesamten Internet. Wir haben die mündlichen und schriftlichen Prüfungen bewusst so gewählt, dass es sie bisher nicht online gibt. Wir wollten wissen: Was kann ChatGPT wirklich durch Logik an Antworten liefern?“, erklärt Prof. Esslinger.
Die Ergebnisse überraschten: Bei der mündlichen Prüfung, die die Grundlagen der Kryptologie abfragte, erreichte ChatGPT 202 von 208 Punkten – das entspricht 97 Prozent. Bei der schwierigeren Masterprüfung erreichte die KI ebenfalls ein sehr gutes Ergebnis mit 80,5 von 90 Punkten, was einer Richtigkeit von 89 Prozent entspricht. Allerdings fiel auf: ChatGPT neigt zu Rechenfehlern und falschen Angaben. „Es ist ein generelles Problem bei künstlichen Intelligenzen: Sie können die bekannte Theorie sehr gut erklären, aber wenn sie mit konkreten Zahlen rechnen sollen, kommen meistens falsche Werte heraus. Gerade bei komplexeren Rechnungen mit großen Zahlen liegen sie häufig falsch. Je nachdem, wie schwierig ein Verfahren ist, kommt dann häufig die Antwort: Das ist so kompliziert, das müsste man jetzt programmieren“, sagt Dr. Kopal.
Besonders deutlich zeigte sich diese Schwäche bei der letzten Prüfung: „Das sind Aufgaben, bei denen die Leute aktiv etwas machen müssen, beispielsweise etwas programmieren – da hat ChatGPT eher ein Problem“, erklärt Dr. Kopal. „Bei einer Aufgabe hat die KI einfach die falsche Aufgabenstellung gelöst. Das Witzige daran ist: Das passiert Studierenden natürlich auch“, weiß er aus Erfahrung. Bei den komplexeren Übungsaufgaben erreichte ChatGPT4 immerhin eine Quote von 75 Prozent korrekter Antworten – das entspreche aber noch immer einem sehr guten Ergebnis, bewertet man die Aufgaben nach dem Schema der Kollegen der Universität Mannheim, die die anspruchsvollen Aufgaben erstellt hatten.
Lohnt es sich also für Studierende, sich von künstlicher Intelligenz im Studium helfen zu lassen? „Nein“, lautet die Antwort der Kryptologie-Experten, denn: „Selbst wenn Studierende im Grundstudium ChatGPT einsetzen, Klausuren damit bestehen oder sich die Seminararbeit schreiben lassen – spätestens, wenn ich ihre Bachelorarbeit betreue und ihnen in der mündlichen Prüfung gegenübersitze, würde ich es herausfinden und sie würden ihre Prüfung nicht bestehen“, betont Prof. Esslinger. Wichtig sei, dass Studierende weiterhin selbstständig denken und KI-generierte Lösungen kritisch hinterfragen, statt ihnen blind zu vertrauen.
Dennoch: Durch die Nutzung von künstlichen Intelligenzen wie ChatGPT stehen Dozierende vor neuen Herausforderungen. Beispielsweise sind Täuschungsversuche schwerer zu erkennen. „Bei manchen Studierenden merkt man, dass sie von ChatGPT abschreiben. Der Bot ist äußerst wortreich, geschwätzig und übertrieben korrekt“, sagt Prof. Esslinger über die Merkmale. Um Betrug durch KI zu verhindern, empfiehlt er: „Wir sollten mehr mündliche Prüfungen machen und weniger Hausaufgaben vergeben, weil wir sonst nicht mehr prüfen können, was die Studierenden selbst gemacht haben.“ Gleichzeitig betont er: „Wir müssen die Menschen befähigen, die KI gut und verantwortungsbewusst zu benutzen.“ Für die Zukunft der Prüfungen bedeutet das: Sie müssten nicht per se schwerer werden, sondern origineller gestellt sein, mit praktischen Anwendungen und weniger Abfragen von Grundwissen, sind sich Prof. Esslinger und Dr. Kopal einig.
Wissenschaftlicher Ansprechpartner:
Prof. Bernhard Esslinger
Professor für Kryptologie und IT-Sicherheit (Fak. 3)
E-Mail: bernhard.esslinger@uni-siegen.de
Originalpublikation:
Ihre Ergebnisse veröffentlichte die Gruppe als wissenschaftliches, kostenlos zugängliches Paper unter dem Titel „Evaluating GPT-4’s proficiency in addressing cryptography examinations“ in der Fachzeitschrift Cryptologia:
https://www.tandfonline.com/doi/full/10.1080/01611194.2024.2320368