Skip to main content
Erschienen in:

Open Access 01.08.2024 | Künstliche Intelligenz | Neurologie

Besteht ChatGPT die neurologische Facharztprüfung? Eine kritische Betrachtung

Triumph für die künstliche Intelligenz? Oder ist die Neurologie anders…

verfasst von: Dr. Bianca Wuchty, Prim. Ao. Univ.-Prof. Dr. Johann Sellner, MBA FAAN FEAN

Erschienen in: psychopraxis. neuropraxis | Ausgabe 5/2024

Zusammenfassung

Chat generative pre-trained transformer (ChatGPT) ist ein Chatbot, der künstliche Intelligenz (KI) einsetzt, um mit den Benutzer:innen zu kommunizieren. Im Bereich der klinischen Neurologie könnte hierdurch die Patientenversorgung vor allem bei komplexen oder seltenen Erkrankungen unterstützt werden. Um das Potenzial der KI als Hilfsmittel in der postgraduellen neurologischen Ausbildung zu untersuchen, wurde ChatGPT mit neurologischen Prüfungsfragen auf Facharztniveau getestet. Die Ergebnisse zeigen kongruent das Potenzial der KI-Systeme in der künftigen Unterstützung von Ausbildung und Patientenversorgung auf. Die Komplexität des neurologischen Fachgebiets stellt allerdings nicht nur für Nachwuchsneurolog:innen eine besondere Herausforderung dar. Des Weiteren hat die KI noch relevante Limitationen für die Translation in die klinische Praxis, hierzu zählen „Halluzinationen“ und die mangelnde Beurteilung der Seriosität von Datenquellen.
Hinweise
QR-Code scannen & Beitrag online lesen

Hinweis des Verlags

Der Verlag bleibt in Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und Institutsadressen neutral.

Einleitung

Die erstmals in 1950 von Alan Turing erwähnte sogenannte künstliche Intelligenz (KI) hat sich in den letzten Jahren noch schneller weiterentwickelt [16]. KI beschreibt den Prozess, bei dem ein Computer die Funktion eines menschlichen Gehirns imitiert, also Fähigkeiten von Auffassung, Entscheidungsfindung und Aktion [14]. Anfangs handelte es sich um einfache „Wenn-dann-Regeln“, welche mittlerweile zu komplexeren Algorithmen weiterentwickelt wurden. Mit der Nutzung von „machine learning“ können nun große Datensätze analysiert und Muster entdeckt werden und in der Folge die medizinische Ausbildung und Versorgung von Patient:innen unterstützen [1, 3].
ChatGPT (OpenAI, San Francisco, CA, USA) ist der Prototyp eines Chatbots und seit November 2022 öffentlich zugänglich. Der Chatbot ist eine Plattform, die den Dialog zwischen Mensch und technischem System ermöglicht. Dabei kommen Deep-Learning-Modelle und neuronale Netze zum Einsatz. Das KI-Tool beantwortet Fragen und schreibt Texte zu nahezu jedem erdenklichen Thema, es können Texte übersetzt sowie Aufgaben automatisiert und personalisiert werden [27]. Durch die Schaffung von Rahmenbedingungen, wie der Beachtung der Autonomie und Verlässlichkeit, könnten KI-Systeme in den klinischen Alltag eingebunden werden und eine optimierte Patientenversorgung erreichen [2, 6].
In einem rezenten Review wurden 66 Originalarbeiten zum Stellenwert von KI in der klinischen Neurologie analysiert [26]. Hier konnte vor allem das Potenzial für die personalisierte Präzisionsmedizin gefunden werden. Weiters können mittels KI-Unterstützung Prävention und Risikostratifizierung bzw. Früherkennung von Erkrankungen gefördert werden, indem Biomarker identifiziert oder Auffälligkeiten in den Aufzeichnungen von Monitoring-Devices erkannt werden. KI-Systeme können auch bei der Interpretation von radiologischen Daten helfen. Eine Einbindung in den klinischen Alltag mit Etablierung rechtlicher, sicherheitsrelevanter und innovativer Rahmenbedingungen ist sinnvoll.
Künstliche Intelligenz: Ein Computer imitiert die Funktionen des Gehirns
Weitere Potenziale von KI-Systemen gibt es bei der Entwicklung von Medikamenten [18]. In den letzten Jahren ist das medizinische Wissen exponentiell gestiegen, mittels KI kann die Literatur gezielt gesichtet und zusammengefasst werden. Durch die raschen Fortschritte, die diese KI-Systeme machen, könnten diese als Unterstützung in der medizinischen Ausbildung, aber auch für Patient:innen und Angehörige eingesetzt werden [9].
Um Facharzt/Fachärztin für Neurologie zu werden, muss in vielen europäischen und angloamerikanischen Ländern eine Abschlussprüfung abgelegt werden [24]. Bei dieser Prüfung wird das von der nationalen Fachgesellschaft vorgegebene Wissen aus dem Fachgebiet überprüft. Seit 2009 gibt es auch die Möglichkeit, eine europäische Facharztprüfung für Neurologie und somit ein überregionales Exzellenzzertifikat zu erwerben [15, 23]. Künftige Neurolog:innen stehen vor der Herausforderung, sich das stetig wachsende Wissen effektiv und zeitsparend mit geeigneten Hilfsmitteln anzueignen. Hierfür könnten KI-Systeme als Unterstützung herangezogen werden. Einige Studien haben schon jetzt das Potenzial von KI-Systemen und ihren Einsatz als Lernhilfsmittel untersucht, indem sie diese zu Facharztprüfungen haben antreten lassen. Im Weiteren erklären wir ChatGPT und dessen Abschneiden bei der US-amerikanischen, der europäischen und der Facharztprüfung des Vereinigten Königreiches.

ChatGPT

ChatGPT basiert auf Deep Learning, ein Unterbereich des „machine learning“, wo Modelle mit „tiefen“ Netzwerken auf große Datenmengen trainiert werden [2, 27]. Der Name ChatGPT besteht aus dem Wort „chat“, englisch: plaudern, und GPT für „generative pre-trained transformer“, der Architektur des KI-Modells. ChatGPT wurde sequenziell mit 2 verschieden Trainingsphasen optimiert: mit einer „self-supervised phase“ und einer „reinforcement learning phase“, die menschliches Feedback beinhaltet (RLHF).
In der „self-supervised training phase“ wird das Modell auf große Mengen an hauptsächlich aus dem Internet stammende Textdaten trainiert. Beim RLHF wird das Modell mittels eines speziellen Präferenzmodells weiter trainiert. Dieses Präferenzmodell wird davor auf menschliche Feedback-Daten optimiert.
Es gibt mittlerweile mehrere Versionen und Updates von ChatGPT. Wenn eine Version nicht mehr aktualisiert wird, wird sie zu einem vorgegebenen Datum nicht mehr angeboten. Bis zum 10. Mai 2023 gab es die Versionen ChatGPT‑3.5 Legacy, ChatGPT‑3.5 Default und ChatGPT‑4. Danach wurde die Legacy-Version nicht mehr angeboten. Für User, die den Service kostenfrei nutzen wollen, steht ChatGPT‑3.5 Default zur Verfügung, Anwender, die ein kostenpflichtiges Abonnement abschließen, können sowohl ChatGPT‑3.5 Default als auch ChatGPT‑4 nutzen.
Eine Neuerung bei ChatGPT‑4 ist, dass in der aktuellen Version auch Bilder prozessiert werden können. Ferner wurden Mechanismen berücksichtigt, die falsche oder unerwünschte Antworten verhindern sollen. Diese können dennoch nicht vollständig eliminiert werden, das Unternehmen weist explizit darauf hin.
Wenn das Modell Information erfindet, wird der Begriff „Halluzination“ für dieses Phänomen verwendet [11, 21]. Dieses Phänomen soll unter ChatGPT‑4 weniger häufig vorkommen. Eine weitere Studie setzte sich mit den möglichen Anwendungen von KI-Chatbots in der medizinischen Ausbildung auseinander [9]. Hierbei wurde der potenzielle Einsatz der KI sowohl in der individuellen Unterstützung bei der Ausbildung von Medizinstudent:innen als auch in der Betreuung von Patient:innen mittels Echtzeitwiedergabe und Vereinfachung der spezifischen Literatur diskutiert. Die Autor:innen weisen allerdings darauf hin, dass Chatbots Informationen inkorrekt darstellen und auf inadäquaten Referenzen beruhen können. Um eine Überprüfung der Inhalte auf Richtigkeit zu ermöglichen, sind Quellenangaben unerlässlich.
L. John Greenfield hat mit ChatGPT‑4 einen Dialog aus klinisch-neurologischem Interesse zu Themen wie Möglichkeiten in der Ausbildung, Diagnose und Therapie geführt und sieht großes Potenzial im Einsatz als Unterstützungssystem [12]. Er streicht aber auch heraus, dass ChatGPT noch Kontrolle benötigt, da es oberflächliche Antworten geben kann und da die Bias des Modells, die zu den Antworten führen, nicht klar zu erkennen sind.
Eine weitere Studie überprüfte, ob ChatGPT‑4 die PECO(Population, Exposure, Comparator, Outcome)-Fragen, die zur Erstellung der Richtlinie für Hirnabszesse von der Europäischen Gesellschaft für klinische Mikrobiologie und Infektionskrankheiten (ESCMID) formuliert wurden, kompetent und richtig beantworten kann [7]. Hier zeigte sich, dass ChatGPT zwar Informationen rasch zusammenfassen und Empfehlungen formulieren kann, aber einzelne Antworten für Patient:innen potenziell schädlich sein könnten und somit KI-Systeme zum aktuellen Zeitpunkt Expert:innen für Richtlinienerstellungen und Behandlungsentscheidungen nicht ersetzen können. Die Autor:innen äußern, dass mit der fortschreitenden Entwicklung der KI-Systeme eine Reevaluierung in Zukunft in Hinblick auf diese Einsatzgebiete vonnöten sein wird.

ChatGPT auf der Schulbank

Einige Forschergruppen haben sich mit der Frage beschäftigt, ob ChatGPT eine neurologische Facharztprüfung bestehen könnte. Im Folgenden werden diese 3 Publikationen vorgestellt.

Studie 1 – US-amerikanische und europäische Facharztprüfung [20]

Marc C. Schubert et al. testeten ChatGPT‑3.5 und ChatGPT‑4 mit exemplarischen Fragen aus den Vorbereitungsunterlagen der US-amerikanischen und europäischen Facharztprüfung für Neurologie. Board Vitals wird von US-amerikanischen Kandidat:innen genutzt, um sich auf die US-amerikanische Facharztprüfung vorzubereiten. Die Studie befasste sich mit den Antworten von ChatGPT zu den 1956 Fragen aus der Online-Datenbank von Board Vitals. Die Fragen sind Single-Best-Answer-Multiple-Choice-Fragen und wurden so auch ChatGPT gestellt. Die Beurteilung wurde mittels verschiedener Analysen vorgenommen. Um die Ergebnisse dieser Datenbank zu validieren, wurden zusätzlich 19 öffentlich zugängliche Fragen der europäischen Facharztprüfung für Neurologie (EBN) benutzt. Die Fragen beider Quellen waren im Vorfeld ChatGPT nicht zugänglich, da sie, im Fall von Board Vitals, hinter einer Paywall verborgen waren bzw., im Falle der EBN-Prüfungsfragen, erst 2022 veröffentlicht wurden.
Wie weit kommt ChatGPT bei der neurologischen Facharztprüfung?
Zuallererst wurde das Gesamtabschneiden bei den Fragen von Board Vitals beurteilt. Hierbei konnten ChatGPT‑4 und auch das Vorgänger-Modell Chat GPT‑3.5 die Ergebnisse der Benutzer:innen der Datenbank übertrumpfen (80,9 vs. 57,8 vs. 73,8 % richtige Antworten). Weiters zeigte sich auch bei den EBN-Fragen, dass ChatGPT‑4 zwar besser als ChatGPT‑3.5 abschnitt, dies war jedoch nicht signifikant (73,7 vs. 52,6 %, p = 0,31). Für die EBN-Fragen gab es keine Kontrollgruppe.
Die Fragen wurden anhand der Bloom-Taxonomie in 2 Kategorien eingeteilt – einfache und komplexe Fragestellungen – und das Abschneiden beurteilt. Auch hier schnitt ChatGPT‑4 (88,5 und 82,0 %) in beiden Kategorien besser als ChatGPT‑3.5 (71,6 und 62,7 %) und die durchschnittlichen User:innen (73,6 und 73,9 %) ab. Chat-GPT‑3.5 konnte bei den einfachen Fragen ähnliche Punkte wie die durchschnittlichen User:innen erreichen.
Bei Unterscheidung in 26 Themen konnte ChatGPT‑4 bei Fragen aus dem Bereich Verhalten, Kognition und Psychologie ChatGPT‑3.5 und die durchschnittlichen User übertreffen. In den Bereichen Basisneurowissenschaft, Bewegungsstörungen, Neurotoxikologie, Ernährung, Metabolismus, Onkologie und Schmerz lag ChatGPT‑4 mit den User:innen gleichauf, schnitt aber besser ab als das Vorgängermodell. Bei der Analyse auf Stärken und Schwächen konnte kein signifikanter Unterschied der Themen für ChatGPT‑3.5 gefunden werden, für ChatGPT‑4 ergab sich für die Bereiche Verhalten, Kognition und Psychologie ein überdurchschnittliches Abschneiden und für die Bereiche Epilepsie und Anfälle und neuromuskuläre Erkrankungen ein unterdurchschnittliches Ergebnis.
Es wurde auch der jeweilige Confidence-Level – ein Maß dafür, wie sicher sich das Modell ist, dass der jeweilige Intent richtig zugeordnet wurde – evaluiert. Hier konnte anhand von 400 Fragen gezeigt werden, dass beide ChatGPT-Modelle einen hohen Confidence-Score errechnen, selbst wenn die Antworten falsch sind. Es wurde auch die Reproduzierbarkeit der Antworten mittels 50 neuer Durchgänge bei 100 Fragen evaluiert. Es wurde hohe Reproduzierbarkeit mit niedriger Reproduzierbarkeit verglichen, und es konnte für beide Modelle ein Zusammenhang der Reproduzierbarkeit und Richtigkeit gezeigt werden.
Die Limitationen dieser Studie waren einerseits, dass aufgrund fehlender Verfügbarkeit keine offiziellen Prüfungsfragen verwendet werden konnten, andererseits, dass bildgestützte Fragen nicht beurteilt werden konnten, da dieses Feature noch nicht vorhanden war. Weiters konnte wegen der geringen Fragenanzahl keine aussagekräftige Subgruppenanalyse durchgeführt werden. Für die EBN-Fragen ergaben sich keine signifikanten Unterschiede bei den Chatbots, was auf die geringe Anzahl der Fragen zurückgeführt wurde.
Die Autor:innen sehen basierend auf dieser Studie ein Potenzial von KI-Systemen im klinischen Setting bei der Dokumentation und Entscheidungsfindung, aber auch als Tool für die Ausbildung. Aufgrund der mit hohem Confidence-Level formulierten Antworten, selbst wenn diese falsch sind, rufen die Autor:innen zu Vorsicht auf.

Studie 2 – US-amerikanische Facharztprüfung [5]

Tse C. Chen et al. haben sich mit der Frage auseinandergesetzt, ob ChatGPT eine schriftliche Neurologieprüfung für die medizinische Weiterbildung zum Facharzt/zur Fachärztin (Neurology Board Exam) in den USA bestehen würde. Dafür wurde ChatGPT‑4 mit über Boards Vitals verfügbaren Fragen inklusive Antwortmöglichkeiten einzeln abgefragt. Da ChatGPT in diesem Kontext das erste Mal mit der Datenbank konfrontiert wurde und keine Vorbereitung hatte, wurden bis zu 3 Versuche für die richtige Antwort toleriert. Beim ersten Versuch konnte das KI-System 335 von 509 Fragen (65,8 %) korrekt beantworten, beim dritten Versuch waren es 383 (75,3 %). Verglichen mit den durchschnittlichen Benutzer-Daten von Boards Vitals erreichte das KI-System einen ähnlichen Wert. Zu beachten ist, dass ChatGPT eine Reihe von online verfügbaren Informationen zur Verfügung hat, dagegen die menschlichen Kandidat:innen die Leistung ohne Unterstützung aus dem Gedächtnis erbringen müssen.
Eine Analyse der verschiedenen Themenschwerpunkte zeigte ein sehr gutes Abschneiden von ChatGPT für die Kategorien Schmerz, Epilepsie und Anfälle und Genetik. Ein unterdurchschnittliches Abschneiden lag für Bildgebung/diagnostische Studien, Notfallmedizin und Hirnnerven vor. Limitierend war, dass Fragen mit Bildern aufgrund der fehlenden Möglichkeit, Bilder zu interpretieren, nicht abgefragt werden konnten. Die Entwicklung und der Einsatz geeigneter Plug-ins, wie etwa die Zusammenarbeit mit Be My Eyes, könnten diese Einschränkung ausgleichen.
Weiters wurde bei Fragen nach Depression und Suizid keine Antwort vom KI-System gegeben, sondern an Hilfseinrichtungen verwiesen.
Die Studienleiter:innen geben zu bedenken, dass es sich um eine kommerzielle Datenbank handelt und kein sicherer Schluss gezogen werden kann, dass ChatGPT die US-amerikanische Neurologiefacharztprüfung bestehen kann. Sie sehen es eher als ein Hilfsmittel, das beim Lernen unterstützen könnte. Sie konkludieren, dass die von ChatGPT gelieferten Antworten aufgrund von Halluzinationen mit Vorsicht zu genießen sind und auf Richtigkeit überprüft werden müssen.

Studie 3 – Britische Facharztprüfung [10]

Panagiotis Giannos hat in seiner Arbeit das Abschneiden von ChatGPT bei der Facharztprüfung für Neurologie des Vereinigten Königreiches (UK SCE) anhand von 69 Beispielfragen aus der Neurology Web Questions Bank getestet. Er hat dabei 3 verschiedene Versionen von Chat-GPT (GPT‑3.5 Legacy, GPT‑3.5 Default und GPT-4) miteinander verglichen. Bei den Fragen wird ein klinisches Szenario geschildert und dann eine Frage mit 5 Antwortmöglichkeiten gestellt, wovon die beste auszuwählen ist. Es wurden für alle ChatGPT-Versionen die Anzahl an Fragen und die korrekten Antworten aufgezeichnet. Zusätzlich wurden eine Note und ein Kandidaten-Ranking für die KI-Systeme vorhergesagt.
Die beiden älteren Versionen, ChatGPT-3.5 Legacy und Default, erreichten beide die Bestehensgrenze von 58 % (42 und 57 %) nicht. GPT‑4 erreichte mit 64 % die Mindestanforderung, schnitt aber im Vergleich zu den Kandidat:innen aus dem Vereinigten Königreich im Jahr 2022 (79,6 %) schlechter ab. ChatGPT‑3.5 Legacy zeigte sich in Endokrinologie und Neurologie am stärksten und in klinischer Wissenschaft und Gastroenterologie am schwächsten. Die Antworten von ChatGPT‑3.5 Default waren im Vergleich zum Vorgängermodell besser in den Bereichen klinische Wissenschaften, Endokrinologie und Ophthalmologie, aber in Gastroenterologie weiterhin schwach. ChatGPT‑4 konnte in allen Themenbereichen konstant abschneiden. Vor allem im Bereich Symptome und Zeichen, Diagnose sowie Interpretation konnten ChatGPT‑3.5 Default und ChatGPT‑4 die Legacy-Version übertreffen. Im Bereich Management konnte ChatGPT‑4 die beiden ChatGPT‑3.5‑Modelle überflügeln.
Die Studie konnten somit belegen, dass neuere (Chat)GPT-Versionen eine Weiterentwicklung darstellen und die Sprachmodelle immer mit aktuellen Daten gespeist werden müssen, um akkuratere Antworten geben zu können.

Diskussion

In diesem Beitrag wurden 3 Studien, die das Abschneiden der KI-Applikation ChatGPT bei der neurologische Facharztprüfung untersuchten, vorgestellt. Hierbei wurde ChatGPT für die Beantwortung von Fragen einer Lernplattform für die US-amerikanische Facharztprüfung für Neurologie in 2 dieser Studien evaluiert [5, 20]. Die dritte Studie setzte sich mit den Beispielfragen der Facharztprüfung für Neurologie des Vereinigten Königreiches auseinander [10]. In allen 3 Studien konnte ChatGPT‑4 die Bestehensgrenze erreichen, während die Ergebnisse früherer Versionen unterhalb der Bestehensgrenze lagen. ChatGPT‑4 schnitt auch gegenüber den „echten“ Nutzer:innen der Datenbank entweder besser (Studie 1) oder etwa gleich (Studie 2) ab.
Ein hoher Confidence-Level und Argumentation anhand von inkorrekten Quellen bei fehlerhaften Antworten rücken dieses Ergebnis allerdings in ein anderes Licht. Weiterhin ist somit Vorsicht geboten, wenn KI als Lernunterstützung eingesetzt wird; eine individuelle Überprüfung der Antworten und Analyse der Herleitung ist erforderlich. Zu bedenken ist auch, dass die Quellen, die ChatGPT aktuell zur Verfügung stehen, nur bis September 2021 reichen und medizinische Neuerungen nach diesem Datum nicht mehr abgebildet werden. Eine weitere Limitation im Bereich der Neurologie ist, dass häufig Facharztwissen für das Lösen von komplexeren Fällen erforderlich ist. Zum anderen bestehen initial oft diagnostische Unsicherheiten aufgrund von unspezifischen Symptomen und Befunden, auch der ungelöste Fall ist dem Neurologen/der Neurologin nicht fremd [4].
ChatGPT und Medizin: ein Mangel an Zertifizierungsstandards
In einer systematischen Übersichtsarbeit wurde die Literatur betreffend KI in Verbindung mit Gesundheitsversorgung und medizinischer Ausbildung über einen Zeitraum von 2017 bis Juli 2022 ausgewertet [25]. Die Arbeit kommt dabei zu dem Schluss, dass die Anzahl der Publikationen zwar zugenommen hat, vor allem seit Beginn der COVID-19-Pandemie, aber KI noch nicht ausreichend in die Ausbildung eingebunden ist. Ein weiterer angeführter Punkt ist, dass bisher keine Zertifizierungsstandards existieren und die untersuchte Literatur eine geringe Qualität der aktuellen Forschung bezüglich KI zeigte.
Die Autor:innen konkludieren: Wenn die derzeitigen Probleme von KI-Systemen berücksichtigt werden, rückt in Zukunft die Möglichkeit für eine personalisierte und diversifizierte Ausbildung in greifbare Nähe. Wenn ChatGPT mit den Ressourcen, die den Kandidat:innen zur Verfügung stehen, trainiert wird, könnte sich daraus eine wertvolle Unterstützung im Hinblick auf die Vorbereitung für die Prüfung ergeben. Die jüngere Generation der Neurolog:innen ist offen für die Implementierung neuer Lehrkonzepte und digitaler Ressourcen [22]. Die Ergänzung der Ausbildung mittels KI könnte nicht nur am jeweiligen Ausbildungsstandort bestehende thematische Einschränkungen kompensieren, sondern aufgrund des Zugriffs auf weltweite Datenquellen auch das Training in globaler Neurologie unterstützen [13, 19].
KI könnte thematische Einschränkungen am Ausbildungsstandort kompensieren
Im Zuge des Ausbruchs der COVID-19-Pandemie kam es zu einem temporären Stillstand der postgraduellen Ausbildung [17]. Häufig wurden Ärzt:innen der Neurologie auch fachfremd eingesetzt und ohne tiefergehende Einarbeitung, auch hier könnte die KI von Nutzen sein. Weiters wäre eine Unterstützung auch bei klinisch anspruchsvollen Fällen durch die rasche Sichtung der Literatur, wenn diese ChatGPT zugänglich gemacht wird, möglich [8]. Zu bedenken ist, dass aktuell KI-Systeme trotzdem noch falsche Antworten generieren können und somit potenziell Schaden in der Patientenversorgung entstehen könnte.
In Zukunft sollten KI-Plattformen bezüglich des Einsatzes in der Ausbildung und auch im Hinblick auf Verringerungen der Limitationen regelmäßig evaluiert werden. Die Weiterentwicklung der KI wird für die Ausbildung in klinischer Neurologie aufgrund der Komplexität des Faches, der Interdisziplinarität sowie der Notwendigkeit für die Berücksichtigung neuester Forschungsergebnisse von besonderem Interesse sein.

Fazit für die Praxis

  • ChatGPT kann eine wertvolle Unterstützung in der postgraduellen Ausbildung sein.
  • Der Zugang von KI(künstliche Intelligenz)-Systemen zur aktuellen medizinischen Literatur ist grundlegend.
  • Die von der KI ausgegebenen Antworten müssen auf Richtigkeit überprüft werden.
  • Das neurologische Fachgebiet stellt aufgrund der Komplexität eine besondere Herausforderung für die KI dar.

Danksagung

Wir danken der Karl Landsteiner Privatuniversität für Gesundheitswissenschaften, Krems, Österreich, für ihre Unterstützung durch den Open Access Publikationsfonds.

Einhaltung ethischer Richtlinien

Interessenkonflikt

B. Wuchty und J. Sellner geben an, dass kein Interessenkonflikt besteht.
Für diesen Beitrag wurden von den Autor/-innen keine Studien an Menschen oder Tieren durchgeführt. Für die aufgeführten Studien gelten die jeweils dort angegebenen ethischen Richtlinien.
Das Manuskript wurde ohne Zuhilfenahme von KI-Programmen erstellt.
Open Access Dieser Artikel wird unter der Creative Commons Namensnennung 4.0 International Lizenz veröffentlicht, welche die Nutzung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem Medium und Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle ordnungsgemäß nennen, einen Link zur Creative Commons Lizenz beifügen und angeben, ob Änderungen vorgenommen wurden.
Die in diesem Artikel enthaltenen Bilder und sonstiges Drittmaterial unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende nichts anderes ergibt. Sofern das betreffende Material nicht unter der genannten Creative Commons Lizenz steht und die betreffende Handlung nicht nach gesetzlichen Vorschriften erlaubt ist, ist für die oben aufgeführten Weiterverwendungen des Materials die Einwilligung des jeweiligen Rechteinhabers einzuholen.
Weitere Details zur Lizenz entnehmen Sie bitte der Lizenzinformation auf http://​creativecommons.​org/​licenses/​by/​4.​0/​deed.​de.

Hinweis des Verlags

Der Verlag bleibt in Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und Institutsadressen neutral.
Literatur
1.
Zurück zum Zitat Ahmed Y (2023) Utilization of ChatGPT in Medical Education: Applications and Implications for Curriculum Enhancement. Acta Inform Med 31:300–305CrossRefPubMedCentral Ahmed Y (2023) Utilization of ChatGPT in Medical Education: Applications and Implications for Curriculum Enhancement. Acta Inform Med 31:300–305CrossRefPubMedCentral
2.
Zurück zum Zitat Au Yeung J, Kraljevic Z, Luintel A et al (2023) AI chatbots not yet ready for clinical use. Front Digit Health 5:1161098CrossRefPubMedCentral Au Yeung J, Kraljevic Z, Luintel A et al (2023) AI chatbots not yet ready for clinical use. Front Digit Health 5:1161098CrossRefPubMedCentral
3.
Zurück zum Zitat Cascella M, Montomoli J, Bellini V et al (2023) Evaluating the Feasibility of ChatGPT in Healthcare: An Analysis of Multiple Clinical and Research Scenarios. J Med Syst 47:33CrossRefPubMedCentral Cascella M, Montomoli J, Bellini V et al (2023) Evaluating the Feasibility of ChatGPT in Healthcare: An Analysis of Multiple Clinical and Research Scenarios. J Med Syst 47:33CrossRefPubMedCentral
4.
Zurück zum Zitat Cerasa A, Crowe B (2024) Generative artificial intelligence in neurology: Opportunities and risks. Eur J Neurol e16232: Cerasa A, Crowe B (2024) Generative artificial intelligence in neurology: Opportunities and risks. Eur J Neurol e16232:
5.
Zurück zum Zitat Chen TC, Multala E, Kearns P et al (2023) Assessment of ChatGPT’s performance on neurology written board examination questions. Bmj Neurol Open 5:e530CrossRefPubMedCentral Chen TC, Multala E, Kearns P et al (2023) Assessment of ChatGPT’s performance on neurology written board examination questions. Bmj Neurol Open 5:e530CrossRefPubMedCentral
6.
Zurück zum Zitat Davenport T, Kalakota R (2019) The potential for artificial intelligence in healthcare. Future Healthc J 6:94–98CrossRefPubMedCentral Davenport T, Kalakota R (2019) The potential for artificial intelligence in healthcare. Future Healthc J 6:94–98CrossRefPubMedCentral
7.
Zurück zum Zitat Dyckhoff-Shen S, Koedel U, Brouwer MC et al (2024) ChatGPT fails challenging the recent ESCMID brain abscess guideline. J Neurol Dyckhoff-Shen S, Koedel U, Brouwer MC et al (2024) ChatGPT fails challenging the recent ESCMID brain abscess guideline. J Neurol
8.
Zurück zum Zitat Fonseca A, Ferreira A, Ribeiro L et al (2024) Embracing the future-is artificial intelligence already better? A comparative study of artificial intelligence performance in diagnostic accuracy and decision-making. Eur J Neurol e16195: Fonseca A, Ferreira A, Ribeiro L et al (2024) Embracing the future-is artificial intelligence already better? A comparative study of artificial intelligence performance in diagnostic accuracy and decision-making. Eur J Neurol e16195:
9.
Zurück zum Zitat Ghorashi N, Ismail A, Ghosh P et al (2023) AI-Powered Chatbots in Medical Education: Potential Applications and Implications. Cureus 15:e43271PubMedCentral Ghorashi N, Ismail A, Ghosh P et al (2023) AI-Powered Chatbots in Medical Education: Potential Applications and Implications. Cureus 15:e43271PubMedCentral
10.
Zurück zum Zitat Giannos P (2023) Evaluating the limits of AI in medical specialisation: ChatGPT’s performance on the UK Neurology Specialty Certificate Examination. Bmj Neurol Open 5:e451CrossRef Giannos P (2023) Evaluating the limits of AI in medical specialisation: ChatGPT’s performance on the UK Neurology Specialty Certificate Examination. Bmj Neurol Open 5:e451CrossRef
11.
Zurück zum Zitat Giuffre M, You K, Shung DL (2023) Evaluating ChatGPT in Medical Contexts: The Imperative to Guard Against Hallucinations and Partial Accuracies. Clin Gastroenterol Hepatol Giuffre M, You K, Shung DL (2023) Evaluating ChatGPT in Medical Contexts: The Imperative to Guard Against Hallucinations and Partial Accuracies. Clin Gastroenterol Hepatol
12.
Zurück zum Zitat Greenfield LJ (2023) AI in Academic Neurology: A Chat With ChatGPT‑4. NeurologyLive 6: Greenfield LJ (2023) AI in Academic Neurology: A Chat With ChatGPT‑4. NeurologyLive 6:
13.
Zurück zum Zitat Györfi OM M, Balicza P, Macerollo A, Struhal W (2016) European junior neurologists perceive various shortcomings in current residency curricula. Acta Neurol Scand 143:232–237CrossRef Györfi OM M, Balicza P, Macerollo A, Struhal W (2016) European junior neurologists perceive various shortcomings in current residency curricula. Acta Neurol Scand 143:232–237CrossRef
14.
Zurück zum Zitat Kaul V, Enslin S, Gross SA (2020) History of artificial intelligence in medicine. Gastrointest Endosc 92:807–812CrossRef Kaul V, Enslin S, Gross SA (2020) History of artificial intelligence in medicine. Gastrointest Endosc 92:807–812CrossRef
15.
Zurück zum Zitat Macerollo A, Struhal W, Sellner J (2013) Harmonization of European neurology education: the junior doctor’s perspective. Neurology 81:1626–1629CrossRef Macerollo A, Struhal W, Sellner J (2013) Harmonization of European neurology education: the junior doctor’s perspective. Neurology 81:1626–1629CrossRef
16.
Zurück zum Zitat Muggleton S (2014) Alan Turing and the development of Artificial Intelligence. Ai Commun 27:3–10CrossRef Muggleton S (2014) Alan Turing and the development of Artificial Intelligence. Ai Commun 27:3–10CrossRef
17.
Zurück zum Zitat Rakusa M, Moro E, Akhvlediani T et al (2024) The COVID-19 pandemic and neurology: A survey on previous and continued restrictions for clinical practice, curricular training, and health economics. Eur J Neurol 31:e16168CrossRef Rakusa M, Moro E, Akhvlediani T et al (2024) The COVID-19 pandemic and neurology: A survey on previous and continued restrictions for clinical practice, curricular training, and health economics. Eur J Neurol 31:e16168CrossRef
18.
Zurück zum Zitat Rödel V, Wiendl H (2024) Disruptives und transformatives Potenzial von KI. Neurotransmitter 35:22–27CrossRef Rödel V, Wiendl H (2024) Disruptives und transformatives Potenzial von KI. Neurotransmitter 35:22–27CrossRef
19.
Zurück zum Zitat Sauerbier A, Macerollo A, Gyorfi O et al (2016) Insufficient global health education in European neurological post-graduate training: a European Association of Young Neurologists and Trainees survey. Eur J Neurol 23:1680–1683CrossRef Sauerbier A, Macerollo A, Gyorfi O et al (2016) Insufficient global health education in European neurological post-graduate training: a European Association of Young Neurologists and Trainees survey. Eur J Neurol 23:1680–1683CrossRef
20.
Zurück zum Zitat Schubert MC, Wick W, Venkataramani V (2023) Performance of Large Language Models on a Neurology Board-Style Examination. JAMA Netw Open 6:e2346721CrossRef Schubert MC, Wick W, Venkataramani V (2023) Performance of Large Language Models on a Neurology Board-Style Examination. JAMA Netw Open 6:e2346721CrossRef
21.
Zurück zum Zitat Siontis KC, Attia ZI, Asirvatham SJ et al (2024) ChatGPT hallucinating: can it get any more humanlike? Eur Heart J 45:321–323CrossRef Siontis KC, Attia ZI, Asirvatham SJ et al (2024) ChatGPT hallucinating: can it get any more humanlike? Eur Heart J 45:321–323CrossRef
22.
Zurück zum Zitat Struhal W, Falup-Pecurariu C, Sztriha LK et al (2011) European Association of Young Neurologists and Trainees: position paper on teaching courses for Generation Y. Eur Neurol 65:352–354CrossRef Struhal W, Falup-Pecurariu C, Sztriha LK et al (2011) European Association of Young Neurologists and Trainees: position paper on teaching courses for Generation Y. Eur Neurol 65:352–354CrossRef
23.
Zurück zum Zitat Struhal W, Rakusa M, Grisold W et al (2011) The European Board of Neurology Examination—junior neurologists are eager to take the challenge. Eur J Neurol 18:e89–92CrossRef Struhal W, Rakusa M, Grisold W et al (2011) The European Board of Neurology Examination—junior neurologists are eager to take the challenge. Eur J Neurol 18:e89–92CrossRef
24.
Zurück zum Zitat Struhal W, Sellner J, Lisnic V et al (2011) Neurology residency training in Europe—the current situation. Eur J Neurol 18:e36–40CrossRef Struhal W, Sellner J, Lisnic V et al (2011) Neurology residency training in Europe—the current situation. Eur J Neurol 18:e36–40CrossRef
25.
Zurück zum Zitat Sun L, Yin C, Xu Q et al (2023) Artificial intelligence for healthcare and medical education: a systematic review. Am J Transl Res 15:4820–4828PubMedCentral Sun L, Yin C, Xu Q et al (2023) Artificial intelligence for healthcare and medical education: a systematic review. Am J Transl Res 15:4820–4828PubMedCentral
26.
Zurück zum Zitat Voigtlaender S, Pawelczyk J, Geiger M, Vaios EJ, Karschnia P, Cudkowicz M (2024) Artificial intelligence in neurology: opportunities, challenges, and policy implications. J Neurol (in press) Voigtlaender S, Pawelczyk J, Geiger M, Vaios EJ, Karschnia P, Cudkowicz M (2024) Artificial intelligence in neurology: opportunities, challenges, and policy implications. J Neurol (in press)
27.
Zurück zum Zitat Wahlster W (2023) Understanding computational dialogue understanding. Philos Trans A Math Phys Eng Sci 381:20220049 Wahlster W (2023) Understanding computational dialogue understanding. Philos Trans A Math Phys Eng Sci 381:20220049
Metadaten
Titel
Besteht ChatGPT die neurologische Facharztprüfung? Eine kritische Betrachtung
Triumph für die künstliche Intelligenz? Oder ist die Neurologie anders…
verfasst von
Dr. Bianca Wuchty
Prim. Ao. Univ.-Prof. Dr. Johann Sellner, MBA FAAN FEAN
Publikationsdatum
01.08.2024
Verlag
Springer Vienna
Erschienen in
psychopraxis. neuropraxis / Ausgabe 5/2024
Print ISSN: 2197-9707
Elektronische ISSN: 2197-9715
DOI
https://doi.org/10.1007/s00739-024-01019-x

www.gesundheitswirtschaft.at (Link öffnet in neuem Fenster)

Mit den beiden Medien ÖKZ und QUALITAS unterstützt Gesundheitswirtschaft.at das Gesundheitssystem durch kritische Analysen und Information, schafft Interesse für notwendige Veränderungen und fördert Initiative. Die ÖKZ ist seit 1960 das bekannteste Printmedium für Führungskräfte und Entscheidungsträger im österreichischen Gesundheitssystem. Die QUALITAS verbindet seit 2002 die deutschsprachigen Experten und Praktiker im Thema Qualität in Gesundheitseinrichtungen.

zur Seite

www.pains.at (Link öffnet in neuem Fenster)

P.A.I.N.S. bietet vielfältige und aktuelle Inhalte in den Bereichen Palliativmedizin, Anästhesie, Intensivmedizin, Notfallmedizin und Schmerzmedizin. Die Informationsplattform legt einen besonderen Schwerpunkt auf hochwertige Fortbildung und bietet Updates und ausgewählte Highlight-Beiträge aus Schmerznachrichten und Anästhesie Nachrichten.

zur Seite