Une étude récente révèle que les modèles d'intelligence artificielle de pointe présentent des déficits cognitifs similaires à ceux observés dans les premiers stades de la démence lorsqu'ils passent le test d'évaluation cognitive de Montréal (MoCA). Cette découverte souligne les limites de l'IA dans les applications cliniques, notamment pour les tâches nécessitant des compétences visuo-spatiales et exécutives.
Une étude publiée dans le numéro spécial de Noël du British Medical Journal (BMJ) indique que presque tous les principaux grands modèles de langage, ou « chatbots », présentent des signes de troubles cognitifs légers lorsqu'ils sont soumis à des tests d'évaluation couramment utilisés pour détecter la démence précoce.

L'étude a également constaté que les anciennes versions de ces chatbots, à l'instar des patients humains âgés, obtenaient de moins bons résultats aux tests. Les chercheurs estiment que ces résultats « remettent en question l'hypothèse selon laquelle l'intelligence artificielle remplacera bientôt les médecins humains ».
Les progrès récents de l'IA suscitent à la fois enthousiasme et inquiétude, et amènent à se demander si les chatbots surpasseront un jour les médecins humains dans les tâches médicales.
Bien que des études antérieures aient montré que les grands modèles de langage (LLM) excellaient dans diverses tâches de diagnostic médical, leur vulnérabilité à des troubles cognitifs similaires à ceux des humains (comme le déclin cognitif) restait largement inexplorée – jusqu'à présent.
Pour combler cette lacune, les chercheurs ont utilisé le test d'évaluation cognitive de Montréal (MoCA) pour évaluer les capacités cognitives des principaux LLM actuellement disponibles publiquement, notamment ChatGPT4 et 4o (développés par OpenAI), Claude3.5 « Sonnet » (développé par Anthropic) et Gemini1 et 1.5 (développés par Alphabet).
Le test MoCA est largement utilisé pour détecter les troubles cognitifs et les signes précoces de démence, généralement chez les personnes âgées. Grâce à une série de tâches et de questions courtes, il évalue plusieurs capacités, notamment l'attention, la mémoire, les capacités linguistiques, les compétences visuo-spatiales et les fonctions exécutives. Le score maximal est de 30 ; un score de 26 ou plus est généralement considéré comme normal.
Les chercheurs ont donné aux LLM les mêmes instructions que celles données aux patients humains. La notation a suivi les directives officielles et a été évaluée par un neurologue praticien.
Au test MoCA, ChatGPT4o a obtenu le meilleur score (26 sur 30), suivi de ChatGPT4 et de Claude (25 sur 30), tandis que Gemini1.0 a obtenu le score le plus faible (16 sur 30).
Tous les chatbots ont obtenu de mauvais résultats aux épreuves de compétences visuo-spatiales et aux tâches exécutives, telles que le test de connexion (relier des nombres et des lettres encerclés dans l'ordre croissant) et le test de dessin d'horloge (dessiner une horloge indiquant une heure spécifique). Le modèle Gemini a échoué à la tâche de rappel différé (se souvenir d'une séquence de cinq mots).
Tous les chatbots ont cependant bien réussi la plupart des autres tâches, notamment la dénomination, l'attention, le langage et l'abstraction.
Cependant, lors de tests visuo-spatiaux plus poussés, les chatbots n'ont pas pu faire preuve d'empathie ni interpréter correctement des scènes visuelles complexes. Seul ChatGPT4o a réussi la phase inconsistante du test de Stroop, qui utilise une combinaison de noms de couleurs et de couleurs de police pour mesurer l'impact des interférences sur le temps de réaction.
Il s'agit de constatations observationnelles, et les chercheurs reconnaissent les différences fondamentales entre le cerveau humain et les grands modèles de langage.
Ils soulignent toutefois que tous les grands modèles de langage ont systématiquement échoué aux tâches nécessitant de l'abstraction visuelle et des fonctions exécutives, ce qui met en évidence une faiblesse importante susceptible de nuire à leur utilisation en milieu clinique.
Ils concluent donc : « Non seulement les neurologues sont peu susceptibles d'être remplacés à court terme par les grands modèles de langage, mais nos résultats suggèrent qu'ils pourraient bientôt se retrouver à traiter de nouveaux patients virtuels : des modèles d'IA souffrant de troubles cognitifs. »