O mais recente modelo da OpenAI, o o3, alcançou resultados surpreendentes no benchmark ARC-AGI, atingindo uma pontuação impressionante de 75,7% em condições de cálculo padrão e 87,5% em uma versão de alto cálculo. Essa conquista surpreendeu a comunidade de pesquisa em IA, mas não prova que a inteligência artificial geral (AGI) tenha sido decifrada.
O benchmark ARC-AGI é baseado no Abstract Reasoning Corpus (Corpus de Raciocínio Abstrato), um teste projetado para avaliar a capacidade dos sistemas de IA de se adaptarem a novas tarefas e demonstrarem inteligência fluida. O ARC inclui uma série de quebra-cabeças visuais que exigem a compreensão de conceitos básicos, como objetos, limites e relações espaciais. Humanos resolvem esses quebra-cabeças facilmente, mas os sistemas de IA atuais enfrentam grandes desafios nessa área. O ARC é considerado um dos benchmarks mais desafiadores na avaliação de IA.
O desempenho do o3 é significativamente superior ao de modelos anteriores. Os modelos o1-preview e o1 alcançaram uma pontuação máxima de 32% no ARC-AGI. Antes disso, o pesquisador Jeremy Berman, usando um método híbrido que combinava o Claude3.5Sonnet com algoritmos genéticos, obteve uma pontuação de 53%. O surgimento do o3 é visto como um salto na capacidade da IA.
François Chollet, criador do ARC, elogiou a mudança qualitativa na capacidade da IA demonstrada pelo o3, considerando sua capacidade de adaptação a novas tarefas como algo sem precedentes.
Apesar do excelente desempenho do o3, seu custo computacional é bastante alto. Em configurações de baixo cálculo, o custo para resolver cada quebra-cabeça varia entre US$ 17 e US$ 20, consumindo 33 milhões de tokens. Em configurações de alto cálculo, o custo computacional aumenta 172 vezes, usando bilhões de tokens. No entanto, à medida que o custo de inferência diminui, essas despesas podem se tornar mais razoáveis.
Ainda não há informações detalhadas sobre como o o3 alcançou essa inovação. Alguns cientistas especulam que o o3 pode usar um método de síntese de programas, combinando raciocínio em cadeia e mecanismos de busca. Outros acreditam que o o3 pode ter sido simplesmente obtido por meio da expansão do aprendizado por reforço.
Apesar do progresso significativo do o3 no ARC-AGI, Chollet enfatiza que o ARC-AGI não é um teste de AGI e o o3 ainda não atende aos padrões de AGI. Ele ainda apresenta desempenho ruim em algumas tarefas simples, mostrando diferenças fundamentais em relação à inteligência humana. Além disso, o o3 ainda depende da validação externa durante o processo de raciocínio, o que difere muito da capacidade de aprendizado independente da AGI.
A equipe de Chollet está desenvolvendo novos benchmarks desafiadores para testar as capacidades do o3, prevendo que sua pontuação será reduzida para menos de 30%. Ele aponta que uma verdadeira AGI significaria tornar quase impossível a criação de tarefas simples para humanos, mas difíceis para a IA.
Destaques:
🌟 O o3 obteve uma pontuação alta de 75,7% no benchmark ARC-AGI, superando modelos anteriores.
💰 O custo para o o3 resolver cada quebra-cabeça chega a US$ 17 a US$ 20, com grande demanda computacional.
🚫 Apesar do excelente desempenho do o3, os especialistas enfatizam que ele ainda não atinge os padrões de AGI.