Eine aktuelle Studie zeigt, dass führende KI-Modelle bei der Durchführung des Montreal Cognitive Assessment (MoCA) kognitive Beeinträchtigungen aufweisen, die denen früher Demenzsymptome ähneln. Diese Entdeckung unterstreicht die Grenzen der KI in klinischen Anwendungen, insbesondere bei Aufgaben, die visuelle und exekutive Fähigkeiten erfordern.

Eine im Weihnachts-Sonderheft des „British Medical Journal“ (BMJ) veröffentlichte Studie weist darauf hin, dass nahezu alle führenden großen Sprachmodelle, auch bekannt als „Chatbots“, bei der Verwendung von Tests zur Erkennung früher Demenz Anzeichen einer leichten kognitiven Beeinträchtigung zeigten.

Roboter Künstliche Intelligenz KI

Die Studie ergab außerdem, dass ältere Versionen dieser Chatbots, ähnlich wie alternde menschliche Patienten, schlechter abschnitten. Die Forscher argumentieren, dass diese Ergebnisse „die Annahme in Frage stellen, dass KI menschliche Ärzte bald ersetzen wird“.

Die jüngsten Fortschritte in der KI haben sowohl Begeisterung als auch Besorgnis ausgelöst, und die Frage, ob Chatbots menschliche Ärzte bei medizinischen Aufgaben übertreffen werden, wird diskutiert.

Obwohl frühere Studien gezeigt haben, dass große Sprachmodelle (LLMs) bei verschiedenen medizinischen Diagnoseaufgaben gute Leistungen erbringen, blieb weitgehend unerforscht, ob sie anfällig für menschenähnliche kognitive Beeinträchtigungen (wie kognitive Abnahme) sind – bis jetzt.

Um diese Wissenslücke zu schließen, bewerteten die Forscher die kognitiven Fähigkeiten der derzeit öffentlich zugänglichen führenden LLMs mithilfe des Montreal Cognitive Assessment (MoCA). Dazu gehörten ChatGPT4 und 4o von OpenAI, Claude 3.5 „Sonnet“ von Anthropic und Gemini 1 und 1.5 von Alphabet.

Der MoCA-Test wird häufig eingesetzt, um kognitive Beeinträchtigungen und frühe Anzeichen von Demenz zu erkennen, oft bei älteren Menschen. Durch eine Reihe kurzer Aufgaben und Fragen bewertet er verschiedene Fähigkeiten, darunter Aufmerksamkeit, Gedächtnis, Sprache, visuell-räumliche Fähigkeiten und exekutive Funktionen. Die Höchstpunktzahl beträgt 30 Punkte, wobei 26 Punkte oder mehr im Allgemeinen als normal gelten.

Die Forscher gaben den LLMs die gleichen Anweisungen wie menschlichen Patienten. Die Bewertung erfolgte gemäß den offiziellen Richtlinien und wurde von einem praktizierenden Neurologen durchgeführt.

Beim MoCA-Test erzielte ChatGPT4o die höchste Punktzahl (26 von 30 Punkten), gefolgt von ChatGPT4 und Claude (25 von 30 Punkten). Gemini 1.0 erzielte die niedrigste Punktzahl (16 von 30 Punkten).

Alle Chatbots schnitten bei visuell-räumlichen Fähigkeiten und Exekutivfunktionen schlecht ab, beispielsweise bei einem Linienverbindertest (Verbinden von nummerierten und alphabetisierten Kreisen in aufsteigender Reihenfolge) und einem Uhrzeichentest (Zeichnen einer Uhr mit einer bestimmten Uhrzeit). Das Gemini-Modell scheiterte bei der verzögerten Wiedergabe von Wörtern (sich an eine Folge von fünf Wörtern erinnern).

Bei den meisten anderen Aufgaben, darunter Benennung, Aufmerksamkeit, Sprache und Abstraktion, schnitten alle Chatbots gut ab.

Bei weiteren visuell-räumlichen Tests konnten die Chatbots jedoch keine Empathie zeigen oder komplexe visuelle Szenen korrekt interpretieren. Nur ChatGPT4o war in der inkonsistenten Phase des Stroop-Tests erfolgreich, der mithilfe einer Kombination aus Farbnamen und Schriftfarben misst, wie sich Interferenzen auf die Reaktionszeit auswirken.

Dies sind beobachtende Befunde, und die Forscher räumen wesentliche Unterschiede zwischen dem menschlichen Gehirn und großen Sprachmodellen ein.

Sie weisen jedoch darauf hin, dass alle großen Sprachmodelle bei Aufgaben, die visuelle Abstraktion und exekutive Funktionen erfordern, konsistent versagten. Dies unterstreicht eine wichtige Schwäche, die ihren Einsatz in klinischen Umgebungen behindern könnte.

Daher kommen sie zu dem Schluss: „Neurologen werden nicht nur kurzfristig unwahrscheinlich durch große Sprachmodelle ersetzt, sondern unsere Ergebnisse deuten darauf hin, dass sie sich bald selbst mit der Behandlung neuer, virtueller Patienten befassen könnten – KI-Modelle mit kognitiven Beeinträchtigungen.“