Uma pesquisa recente da Universidade de Munique, do Centro de Aprendizado de Máquina de Munique e da Adobe Research mostrou que 12 modelos de linguagem de IA de ponta, incluindo GPT-4o, Gemini 1.5 Pro e Llama-3.3-70B, enfrentam uma deterioração significativa do desempenho em tarefas de raciocínio conceitual com textos longos. Embora esses modelos suportem o processamento de contexto de pelo menos 128.000 tokens, suas capacidades de associação lógica profunda ainda apresentam limitações fundamentais.

A equipe de pesquisa desenvolveu o sistema de teste de referência NOLIMA (sem correspondência de palavras), que, através de um design que evita deliberadamente a repetição de palavras-chave, revela a fragilidade dos modelos de IA na conexão conceitual. Por exemplo, quando o texto descreve "Yuki mora ao lado do Semperoper", o modelo precisa primeiro entender o conhecimento comum de que "o Semperoper está localizado em Dresden" para responder "quem já esteve em Dresden".

Robô trabalhando digitando

Observação da fonte: A imagem foi gerada por IA, fornecida pela Midjourney.

Os resultados do teste mostraram:

1. Queda acentuada no desempenho de textos longos: quando o contexto foi expandido de 2.000 para 8.000 tokens, o desempenho da maioria dos modelos caiu significativamente; em cenários de 32.000 tokens, 10 dos 12 modelos apresentaram apenas metade do desempenho em comparação com textos curtos.

2. Mecanismo de atenção expõe fraquezas: os modelos têm dificuldade em localizar informações relevantes em textos longos; quando a resposta-chave aparece na segunda metade do texto, a precisão diminui ainda mais.

3. Modelos de raciocínio especializados ainda apresentam defeitos: os sistemas o1, o3-mini e DeepSeek-R1, projetados para raciocínio complexo, obtiveram pontuações inferiores a 50% no teste NOLIMA-Hard de 32K tokens, apesar de seu desempenho quase perfeito em textos curtos.

A pesquisa aponta que a dependência excessiva dos modelos em "correspondência de palavras" é o problema central. Quando o teste exclui deliberadamente palavras idênticas, mesmo com a técnica de prompt de cadeia de pensamento (CoT), a melhoria na capacidade de processamento de textos longos do Llama-3.3-70B ainda é limitada. Mais grave ainda, a presença de interferência de correspondência de palavras em contextos irrelevantes pode agravar os erros de julgamento do modelo.

"Isso revela a contradição fundamental da IA atual: expandir a janela de contexto é fácil, mas melhorar a capacidade de raciocínio profundo é difícil", enfatizam os pesquisadores. Tomando o GPT-4o como exemplo, embora atinja um comprimento de contexto efetivo de 8.000 tokens, ele ainda demonstra fraqueza na integração conceitual entre parágrafos. À medida que o texto se estende, o mecanismo de atenção do modelo gradualmente "desfoca", dificultando a manutenção de uma cadeia lógica coerente.

Esta pesquisa soa um alarme para o desenvolvimento da IA: simplesmente aumentar o comprimento de processamento não pode superar o gargalo do raciocínio. A indústria precisa rever o design da arquitetura do modelo e desenvolver mecanismos mais eficientes de extração e associação de informações. No futuro, como fazer com que a IA realmente entenda o texto, em vez de depender da correspondência de padrões, será a chave para superar os limites do processamento de textos longos.