Eine kürzlich in der Fachzeitschrift „Cureus“ veröffentlichte Peer-Review-Studie zeigt, dass das OpenAI GPT-4 Sprachmodell ohne zusätzliches Training die japanische Physiotherapie-Prüfung bestanden hat.

Die Forscher gaben GPT-4 1.000 Fragen, die Gedächtnis, Verständnis, Anwendung, Analyse und Bewertung abdeckten. GPT-4 beantwortete insgesamt 73,4 % der Fragen korrekt und bestand alle fünf Prüfungsteile. Die Studie zeigte jedoch auch die Grenzen der KI in bestimmten Bereichen auf.

QQ20240902-090345.png

GPT-4 schnitt bei allgemeinen Fragen mit einer Genauigkeit von 80,1 % gut ab, bei praktischen Fragen jedoch nur mit 46,6 %. Ebenso war es bei rein textbasierten Fragen (80,5 % korrekt) deutlich besser als bei Fragen mit Bildern und Tabellen (35,4 % korrekt). Diese Ergebnisse stimmen mit früheren Studien überein, die die Grenzen des visuellen Verständnisses von GPT-4 aufzeigen.

Bemerkenswert ist, dass Schwierigkeitsgrad und Textlänge die Leistung von GPT-4 kaum beeinflussten. Obwohl das Modell hauptsächlich mit englischen Daten trainiert wurde, zeigte es auch bei der Verarbeitung japanischer Eingaben gute Ergebnisse.

QQ20240902-090359.png

Die Forscher weisen darauf hin, dass diese Studie zwar das Potenzial von GPT-4 in der klinischen Rehabilitation und medizinischen Ausbildung zeigt, aber dennoch Vorsicht geboten ist. Sie betonen, dass GPT-4 nicht alle Fragen korrekt beantwortet und zukünftige Bewertungen neuer Versionen sowie die Fähigkeiten des Modells in schriftlichen und logischen Tests erforderlich sind.

QQ20240902-090419.png

Darüber hinaus schlagen die Forscher vor, dass multimodale Modelle wie GPT-4v zu Verbesserungen im visuellen Verständnis führen könnten. Derzeit werden von Google Med-PaLM2, Med-Gemini und ähnliche spezialisierte medizinische KI-Modelle sowie ein medizinisches Modell von Meta basierend auf Llama3 aktiv entwickelt, um allgemeine Modelle in medizinischen Aufgaben zu übertreffen.

Experten gehen jedoch davon aus, dass es noch lange dauern wird, bis medizinische KI-Modelle in der Praxis weit verbreitet sind. Der Fehlerbereich aktueller Modelle ist im medizinischen Umfeld immer noch zu groß. Es sind erhebliche Fortschritte in der logischen Schlussfolgerung notwendig, bevor diese Modelle sicher in die tägliche medizinische Praxis integriert werden können.