Uma pesquisa recente da Universidade Técnica de Darmstadt, na Alemanha, revelou um fenômeno intrigante: mesmo os modelos de imagem de IA mais avançados cometem erros significativos em tarefas simples de raciocínio visual. Este resultado levanta novas questões sobre os padrões de avaliação da capacidade visual da IA.

A equipe de pesquisa utilizou o problema de Bongard, criado pelo cientista russo Michail Bongard, como ferramenta de teste. Este tipo de quebra-cabeça visual consiste em 12 imagens simples, divididas em dois grupos, exigindo a identificação da regra que diferencia os grupos. Para a maioria das pessoas, essa tarefa de raciocínio abstrato não é difícil, mas o desempenho dos modelos de IA foi surpreendente.

image.png

Mesmo o GPT-4o, considerado atualmente um modelo multimodal de ponta, resolveu apenas 21 de 100 quebra-cabeças visuais. Outros modelos de IA conhecidos, como Claude, Gemini e LLaVA, tiveram um desempenho ainda pior. Esses modelos apresentaram dificuldades significativas na identificação de linhas verticais e horizontais ou na determinação da direção de uma espiral, conceitos visuais básicos.

Os pesquisadores descobriram que, mesmo com opções múltiplas, o desempenho dos modelos de IA melhorou apenas ligeiramente. Apenas com a restrição rigorosa do número de respostas possíveis, a taxa de sucesso do GPT-4 e do Claude aumentou para 68 e 69 quebra-cabeças, respectivamente. Através da análise aprofundada de quatro casos específicos, a equipe de pesquisa descobriu que os sistemas de IA, por vezes, já apresentavam problemas no nível da percepção visual básica, antes mesmo de atingir as etapas de "pensamento" e "raciocínio", mas a causa exata permanece incerta.

Esta pesquisa também levou a uma reflexão sobre os padrões de avaliação dos sistemas de IA. A equipe de pesquisa apontou: "Por que os modelos de linguagem visual se saem bem em benchmarks estabelecidos, mas encontram dificuldades em problemas de Bongard aparentemente simples? Qual o significado desses benchmarks na avaliação da capacidade de raciocínio real?" Essas questões sugerem que o sistema atual de avaliação da IA pode precisar ser redesenhado para medir com mais precisão a capacidade de raciocínio visual da IA.

Esta pesquisa não apenas demonstra as limitações das tecnologias de IA atuais, mas também aponta o caminho para o desenvolvimento futuro da capacidade visual da IA. Ela nos lembra que, enquanto comemoramos os rápidos avanços da IA, também devemos reconhecer que ainda há espaço para melhorias em suas capacidades cognitivas básicas.