Novo desafio de teste avalia a inteligência de IA: ARC-AGI-2 desafia os modelos de ponta

Recentemente, a Arc Prize Foundation lançou um novo teste – o ARC-AGI-2 – projetado para medir o nível de inteligência geral (AGI) de modelos de inteligência artificial (IA). A fundação foi co-fundada pelo renomado pesquisador de IA François Chollet. De acordo com o blog da fundação, este novo teste apresenta um desafio significativo para a maioria dos modelos de IA líderes.

De acordo com a classificação do Arc Prize, modelos de IA "baseados em raciocínio", como o o1-pro da OpenAI e o R1 da DeepSeek, obtiveram pontuações entre 1% e 1,3% no teste ARC-AGI-2. Modelos não baseados em raciocínio mais poderosos, como GPT-4.5, Claude3.7Sonnet e Gemini2.0Flash, também obtiveram pontuações em torno de 1%. O teste ARC-AGI inclui uma série de quebra-cabeças que exigem que a IA identifique padrões visuais em blocos de diferentes cores e gere a grade de "resposta" correta. Esses problemas visam forçar a IA a se adaptar a novos problemas nunca antes vistos.

Para estabelecer um padrão humano, a Arc Prize Foundation convidou mais de 400 pessoas para participar do teste ARC-AGI-2. A pontuação média dessas pessoas foi de 60%, muito acima da pontuação de qualquer modelo de IA. Chollet declarou nas redes sociais que o ARC-AGI-2 mede a inteligência real dos modelos de IA de forma mais eficaz do que seu predecessor, o ARC-AGI-1. O novo teste visa avaliar se os sistemas de IA podem adquirir novas habilidades eficientemente, além de seus dados de treinamento.

Em comparação com o ARC-AGI-1, o ARC-AGI-2 apresenta várias melhorias de design, incluindo a introdução de uma nova métrica de "eficiência" e a exigência de que os modelos expliquem os padrões instantaneamente, sem depender da memória. Como disse o co-fundador da Arc Prize Foundation, Greg Kamradt, a inteligência não se resume apenas à capacidade de resolver problemas; a eficiência também é um fator crucial.

Vale notar que o modelo o3 da OpenAI obteve uma pontuação imbatível de 75,7% no ARC-AGI-1, até ser superado em 2024. No entanto, o o3 obteve apenas 4% no ARC-AGI-2, com um custo computacional de US$ 200 por tarefa. O lançamento do ARC-AGI-2 ocorre em meio a um clamor crescente na indústria de tecnologia por novos padrões de medição de progresso em IA. Thomas Wolf, co-fundador do Hugging Face, disse que a indústria de IA carece de testes suficientes para medir características-chave da chamada inteligência artificial geral (AGI), incluindo a criatividade.

Ao mesmo tempo, a Arc Prize Foundation anunciou a competição Arc Prize de 2025, desafiando os desenvolvedores a atingir uma precisão de 85% no teste ARC-AGI-2, com um custo de apenas US$ 0,42 por tarefa.

Destaques:
🌟 O ARC-AGI-2 é um novo teste da Arc Prize Foundation, projetado para medir o nível de inteligência geral da IA.
📉 Atualmente, os modelos de IA de ponta obtêm pontuações geralmente baixas neste teste, muito abaixo da média humana.
🏆 A Arc Prize Foundation também realizará uma competição, incentivando os desenvolvedores a melhorar o desempenho da IA no novo teste com baixo custo.

Notícias e Informações de IA

Novo desafio de teste avalia a inteligência de IA: ARC-AGI-2 desafia os modelos de ponta

AIbase基地