Einige Forschergruppen haben sich mit der Frage beschäftigt, ob ChatGPT eine neurologische Facharztprüfung bestehen könnte. Im Folgenden werden diese 3 Publikationen vorgestellt.
Studie 1 – US-amerikanische und europäische Facharztprüfung [20]
Marc C. Schubert et al. testeten ChatGPT‑3.5 und ChatGPT‑4 mit exemplarischen Fragen aus den Vorbereitungsunterlagen der US-amerikanischen und europäischen Facharztprüfung für Neurologie. Board Vitals wird von US-amerikanischen Kandidat:innen genutzt, um sich auf die US-amerikanische Facharztprüfung vorzubereiten. Die Studie befasste sich mit den Antworten von ChatGPT zu den 1956 Fragen aus der Online-Datenbank von Board Vitals. Die Fragen sind Single-Best-Answer-Multiple-Choice-Fragen und wurden so auch ChatGPT gestellt. Die Beurteilung wurde mittels verschiedener Analysen vorgenommen. Um die Ergebnisse dieser Datenbank zu validieren, wurden zusätzlich 19 öffentlich zugängliche Fragen der europäischen Facharztprüfung für Neurologie (EBN) benutzt. Die Fragen beider Quellen waren im Vorfeld ChatGPT nicht zugänglich, da sie, im Fall von Board Vitals, hinter einer Paywall verborgen waren bzw., im Falle der EBN-Prüfungsfragen, erst 2022 veröffentlicht wurden.
Wie weit kommt ChatGPT bei der neurologischen Facharztprüfung?
Zuallererst wurde das Gesamtabschneiden bei den Fragen von Board Vitals beurteilt. Hierbei konnten ChatGPT‑4 und auch das Vorgänger-Modell Chat GPT‑3.5 die Ergebnisse der Benutzer:innen der Datenbank übertrumpfen (80,9 vs. 57,8 vs. 73,8 % richtige Antworten). Weiters zeigte sich auch bei den EBN-Fragen, dass ChatGPT‑4 zwar besser als ChatGPT‑3.5 abschnitt, dies war jedoch nicht signifikant (73,7 vs. 52,6 %, p = 0,31). Für die EBN-Fragen gab es keine Kontrollgruppe.
Die Fragen wurden anhand der Bloom-Taxonomie in 2 Kategorien eingeteilt – einfache und komplexe Fragestellungen – und das Abschneiden beurteilt. Auch hier schnitt ChatGPT‑4 (88,5 und 82,0 %) in beiden Kategorien besser als ChatGPT‑3.5 (71,6 und 62,7 %) und die durchschnittlichen User:innen (73,6 und 73,9 %) ab. Chat-GPT‑3.5 konnte bei den einfachen Fragen ähnliche Punkte wie die durchschnittlichen User:innen erreichen.
Bei Unterscheidung in 26 Themen konnte ChatGPT‑4 bei Fragen aus dem Bereich Verhalten, Kognition und Psychologie ChatGPT‑3.5 und die durchschnittlichen User übertreffen. In den Bereichen Basisneurowissenschaft, Bewegungsstörungen, Neurotoxikologie, Ernährung, Metabolismus, Onkologie und Schmerz lag ChatGPT‑4 mit den User:innen gleichauf, schnitt aber besser ab als das Vorgängermodell. Bei der Analyse auf Stärken und Schwächen konnte kein signifikanter Unterschied der Themen für ChatGPT‑3.5 gefunden werden, für ChatGPT‑4 ergab sich für die Bereiche Verhalten, Kognition und Psychologie ein überdurchschnittliches Abschneiden und für die Bereiche Epilepsie und Anfälle und neuromuskuläre Erkrankungen ein unterdurchschnittliches Ergebnis.
Es wurde auch der jeweilige Confidence-Level – ein Maß dafür, wie sicher sich das Modell ist, dass der jeweilige Intent richtig zugeordnet wurde – evaluiert. Hier konnte anhand von 400 Fragen gezeigt werden, dass beide ChatGPT-Modelle einen hohen Confidence-Score errechnen, selbst wenn die Antworten falsch sind. Es wurde auch die Reproduzierbarkeit der Antworten mittels 50 neuer Durchgänge bei 100 Fragen evaluiert. Es wurde hohe Reproduzierbarkeit mit niedriger Reproduzierbarkeit verglichen, und es konnte für beide Modelle ein Zusammenhang der Reproduzierbarkeit und Richtigkeit gezeigt werden.
Die Limitationen dieser Studie waren einerseits, dass aufgrund fehlender Verfügbarkeit keine offiziellen Prüfungsfragen verwendet werden konnten, andererseits, dass bildgestützte Fragen nicht beurteilt werden konnten, da dieses Feature noch nicht vorhanden war. Weiters konnte wegen der geringen Fragenanzahl keine aussagekräftige Subgruppenanalyse durchgeführt werden. Für die EBN-Fragen ergaben sich keine signifikanten Unterschiede bei den Chatbots, was auf die geringe Anzahl der Fragen zurückgeführt wurde.
Die Autor:innen sehen basierend auf dieser Studie ein Potenzial von KI-Systemen im klinischen Setting bei der Dokumentation und Entscheidungsfindung, aber auch als Tool für die Ausbildung. Aufgrund der mit hohem Confidence-Level formulierten Antworten, selbst wenn diese falsch sind, rufen die Autor:innen zu Vorsicht auf.
Studie 2 – US-amerikanische Facharztprüfung [5]
Tse C. Chen et al. haben sich mit der Frage auseinandergesetzt, ob ChatGPT eine schriftliche Neurologieprüfung für die medizinische Weiterbildung zum Facharzt/zur Fachärztin (Neurology Board Exam) in den USA bestehen würde. Dafür wurde ChatGPT‑4 mit über Boards Vitals verfügbaren Fragen inklusive Antwortmöglichkeiten einzeln abgefragt. Da ChatGPT in diesem Kontext das erste Mal mit der Datenbank konfrontiert wurde und keine Vorbereitung hatte, wurden bis zu 3 Versuche für die richtige Antwort toleriert. Beim ersten Versuch konnte das KI-System 335 von 509 Fragen (65,8 %) korrekt beantworten, beim dritten Versuch waren es 383 (75,3 %). Verglichen mit den durchschnittlichen Benutzer-Daten von Boards Vitals erreichte das KI-System einen ähnlichen Wert. Zu beachten ist, dass ChatGPT eine Reihe von online verfügbaren Informationen zur Verfügung hat, dagegen die menschlichen Kandidat:innen die Leistung ohne Unterstützung aus dem Gedächtnis erbringen müssen.
Eine Analyse der verschiedenen Themenschwerpunkte zeigte ein sehr gutes Abschneiden von ChatGPT für die Kategorien Schmerz, Epilepsie und Anfälle und Genetik. Ein unterdurchschnittliches Abschneiden lag für Bildgebung/diagnostische Studien, Notfallmedizin und Hirnnerven vor. Limitierend war, dass Fragen mit Bildern aufgrund der fehlenden Möglichkeit, Bilder zu interpretieren, nicht abgefragt werden konnten. Die Entwicklung und der Einsatz geeigneter Plug-ins, wie etwa die Zusammenarbeit mit Be My Eyes, könnten diese Einschränkung ausgleichen.
Weiters wurde bei Fragen nach Depression und Suizid keine Antwort vom KI-System gegeben, sondern an Hilfseinrichtungen verwiesen.
Die Studienleiter:innen geben zu bedenken, dass es sich um eine kommerzielle Datenbank handelt und kein sicherer Schluss gezogen werden kann, dass ChatGPT die US-amerikanische Neurologiefacharztprüfung bestehen kann. Sie sehen es eher als ein Hilfsmittel, das beim Lernen unterstützen könnte. Sie konkludieren, dass die von ChatGPT gelieferten Antworten aufgrund von Halluzinationen mit Vorsicht zu genießen sind und auf Richtigkeit überprüft werden müssen.
Studie 3 – Britische Facharztprüfung [10]
Panagiotis Giannos hat in seiner Arbeit das Abschneiden von ChatGPT bei der Facharztprüfung für Neurologie des Vereinigten Königreiches (UK SCE) anhand von 69 Beispielfragen aus der Neurology Web Questions Bank getestet. Er hat dabei 3 verschiedene Versionen von Chat-GPT (GPT‑3.5 Legacy, GPT‑3.5 Default und GPT-4) miteinander verglichen. Bei den Fragen wird ein klinisches Szenario geschildert und dann eine Frage mit 5 Antwortmöglichkeiten gestellt, wovon die beste auszuwählen ist. Es wurden für alle ChatGPT-Versionen die Anzahl an Fragen und die korrekten Antworten aufgezeichnet. Zusätzlich wurden eine Note und ein Kandidaten-Ranking für die KI-Systeme vorhergesagt.
Die beiden älteren Versionen, ChatGPT-3.5 Legacy und Default, erreichten beide die Bestehensgrenze von 58 % (42 und 57 %) nicht. GPT‑4 erreichte mit 64 % die Mindestanforderung, schnitt aber im Vergleich zu den Kandidat:innen aus dem Vereinigten Königreich im Jahr 2022 (79,6 %) schlechter ab. ChatGPT‑3.5 Legacy zeigte sich in Endokrinologie und Neurologie am stärksten und in klinischer Wissenschaft und Gastroenterologie am schwächsten. Die Antworten von ChatGPT‑3.5 Default waren im Vergleich zum Vorgängermodell besser in den Bereichen klinische Wissenschaften, Endokrinologie und Ophthalmologie, aber in Gastroenterologie weiterhin schwach. ChatGPT‑4 konnte in allen Themenbereichen konstant abschneiden. Vor allem im Bereich Symptome und Zeichen, Diagnose sowie Interpretation konnten ChatGPT‑3.5 Default und ChatGPT‑4 die Legacy-Version übertreffen. Im Bereich Management konnte ChatGPT‑4 die beiden ChatGPT‑3.5‑Modelle überflügeln.
Die Studie konnten somit belegen, dass neuere (Chat)GPT-Versionen eine Weiterentwicklung darstellen und die Sprachmodelle immer mit aktuellen Daten gespeist werden müssen, um akkuratere Antworten geben zu können.