Un estudio reciente revela que los modelos de inteligencia artificial (IA) de vanguardia muestran déficits cognitivos similares a los síntomas tempranos de demencia al someterse a la prueba de evaluación cognitiva de Montreal (MoCA). Este hallazgo destaca las limitaciones de la IA en aplicaciones clínicas, especialmente en tareas que requieren habilidades visuales y ejecutivas.
Una investigación publicada en la edición navideña de The BMJ señala que casi todos los modelos lingüísticos grandes líderes, o "chatbots", muestran signos de deterioro cognitivo leve al utilizar pruebas de evaluación comúnmente empleadas para detectar demencia temprana.

El estudio también descubrió que las versiones anteriores de estos chatbots, al igual que los pacientes humanos que envejecen, obtuvieron peores resultados en las pruebas. Los investigadores consideran que estos hallazgos "desafían la hipótesis de que la IA reemplazará pronto a los médicos humanos".
Los recientes avances en IA han generado entusiasmo y preocupación, llevando a la reflexión sobre si los chatbots superarán a los médicos humanos en tareas médicas.
Aunque estudios previos han demostrado que los modelos lingüísticos grandes (LLM) destacan en diversas tareas de diagnóstico médico, hasta ahora se había explorado en gran medida si son susceptibles a déficits cognitivos similares a los humanos (como el deterioro cognitivo).
Para llenar este vacío de conocimiento, los investigadores utilizaron la prueba MoCA para evaluar las capacidades cognitivas de los LLM líderes actualmente disponibles públicamente, incluyendo ChatGPT4 y 4o (desarrollados por OpenAI), Claude3.5 "Sonnet" (desarrollado por Anthropic) y Gemini1 y 1.5 (desarrollados por Alphabet).
La prueba MoCA se utiliza ampliamente para detectar trastornos cognitivos y signos tempranos de demencia, generalmente en personas mayores. Mediante una serie de tareas y preguntas breves, evalúa diversas capacidades, incluyendo atención, memoria, lenguaje, habilidades visoespaciales y funciones ejecutivas. La puntuación máxima es 30, y generalmente se considera que 26 o más puntos indican normalidad.
Los investigadores dieron a los LLM las mismas instrucciones que a los pacientes humanos. La puntuación se realizó siguiendo las pautas oficiales y fue evaluada por un neurólogo en ejercicio.
En la prueba MoCA, ChatGPT4o obtuvo la puntuación más alta (26 de 30), seguido de ChatGPT4 y Claude (25 de 30), mientras que Gemini1.0 obtuvo la puntuación más baja (16 de 30).
Todos los chatbots obtuvieron malos resultados en las habilidades visoespaciales y en las tareas ejecutivas, como la prueba de conexión (conectar números y letras en círculo en orden ascendente) y la prueba del reloj (dibujar un reloj que muestre una hora específica). El modelo Gemini falló en la tarea de recuerdo diferido (recordar una secuencia de cinco palabras).
Todos los chatbots tuvieron un buen desempeño en la mayoría de las demás tareas, incluyendo denominación, atención, lenguaje y abstracción.
Sin embargo, en pruebas visoespaciales adicionales, los chatbots no pudieron mostrar empatía ni interpretar con precisión escenas visuales complejas. Solo ChatGPT4o tuvo éxito en la fase inconsistente de la prueba de Stroop, que utiliza combinaciones de nombres de colores y colores de fuente para medir cómo la interferencia afecta el tiempo de reacción.
Estos son hallazgos observacionales, y los investigadores reconocen las diferencias esenciales entre el cerebro humano y los modelos lingüísticos grandes.
Sin embargo, señalan que todos los modelos lingüísticos grandes fallaron consistentemente en tareas que requieren abstracción visual y funciones ejecutivas, lo que destaca una debilidad importante que podría obstaculizar su uso en entornos clínicos.
Por lo tanto, concluyen: "Los neurólogos no solo es improbable que sean reemplazados por modelos lingüísticos grandes a corto plazo, sino que nuestros hallazgos sugieren que pronto podrían encontrarse tratando a nuevos pacientes virtuales: modelos de IA con deterioro cognitivo".