Um estudo recente indica que modelos de inteligência artificial de ponta demonstram déficits cognitivos semelhantes aos sintomas iniciais de demência quando submetidos ao teste de Avaliação Cognitiva de Montreal (MoCA). Essa descoberta destaca as limitações da IA em aplicações clínicas, especialmente em tarefas que exigem habilidades visuais e executivas.

Uma pesquisa publicada na edição de Natal do The BMJ aponta que quase todos os principais modelos de linguagem grandes, ou "chatbots", exibem sinais de comprometimento cognitivo leve quando testados com avaliações comumente usadas para detectar demência precoce.

Robô Inteligência Artificial IA

O estudo também descobriu que versões mais antigas desses chatbots, semelhante a pacientes humanos idosos, tiveram um desempenho pior nos testes. Os pesquisadores acreditam que essas descobertas "questionam a hipótese de que a IA substituirá os médicos humanos em breve".

Os avanços recentes em IA geraram entusiasmo e preocupações, levando as pessoas a questionar se os chatbots superarão os médicos humanos em tarefas médicas.

Embora estudos anteriores tenham demonstrado que os modelos de linguagem grandes (LLMs) se destacam em várias tarefas de diagnóstico médico, a questão de sua suscetibilidade a déficits cognitivos semelhantes aos humanos (como declínio cognitivo) permaneceu amplamente inexplorada – até agora.

Para preencher essa lacuna de conhecimento, os pesquisadores usaram o teste MoCA para avaliar as habilidades cognitivas dos principais LLMs atualmente disponíveis publicamente, incluindo o ChatGPT4 e 4o (desenvolvido pela OpenAI), o Claude 3.5 "Sonnet" (desenvolvido pela Anthropic) e o Gemini 1 e 1.5 (desenvolvido pelo Alphabet).

O teste MoCA é amplamente utilizado para detectar comprometimento cognitivo e sinais iniciais de demência, geralmente em idosos. Por meio de uma série de tarefas e perguntas curtas, ele avalia várias habilidades, incluindo atenção, memória, linguagem, habilidades visuoespaciais e funções executivas. A pontuação máxima é 30, e geralmente considera-se 26 pontos ou mais como normal.

Os pesquisadores deram aos LLMs as mesmas instruções de tarefa dadas aos pacientes humanos. A pontuação seguiu as diretrizes oficiais e foi avaliada por um neurologista praticante.

No teste MoCA, o ChatGPT4o obteve a maior pontuação (26 de 30), seguido pelo ChatGPT4 e Claude (25 de 30), enquanto o Gemini 1.0 obteve a menor pontuação (16 de 30).

Todos os chatbots tiveram um desempenho ruim em habilidades visuoespaciais e tarefas executivas, como o teste de conexão (conectar números e letras circulados em ordem crescente) e o teste do relógio (desenhar um relógio mostrando um horário específico). O modelo Gemini falhou na tarefa de memória de atraso (lembrar uma sequência de cinco palavras).

Todos os chatbots tiveram bom desempenho na maioria das outras tarefas, incluindo nomeação, atenção, linguagem e abstração.

No entanto, em testes visuoespaciais adicionais, os chatbots não conseguiram demonstrar empatia ou interpretar com precisão cenários visuais complexos. Apenas o ChatGPT4o teve sucesso na fase inconsistente do teste de Stroop, que usa uma combinação de nomes de cores e cores de fonte para medir como a interferência afeta o tempo de reação.

Essas são descobertas observacionais, e os pesquisadores reconhecem as diferenças inerentes entre o cérebro humano e os modelos de linguagem grandes.

No entanto, eles apontam que todos os modelos de linguagem grandes falharam consistentemente em tarefas que exigem abstração visual e funções executivas, destacando uma fraqueza significativa que pode impedir seu uso em ambientes clínicos.

Portanto, eles concluem: "Os neurologistas não apenas são improváveis de serem substituídos por modelos de linguagem grandes em curto prazo, mas nossas descobertas sugerem que eles podem em breve se deparar com a necessidade de tratar novos pacientes virtuais – modelos de IA com comprometimento cognitivo."