A capacidade da inteligência artificial (IA) está evoluindo rapidamente, e como medir com precisão seu nível de "inteligência" tem sido um foco de atenção na indústria. No entanto, assim como medir a inteligência humana, avaliar a inteligência da IA não é fácil, e os testes e benchmarks existentes geralmente fornecem apenas uma avaliação aproximada. Nos últimos anos, com os modelos de IA se tornando cada vez mais complexos, as limitações dos benchmarks tradicionais se tornaram cada vez mais evidentes, impulsionando a indústria a explorar ativamente novos sistemas de avaliação mais abrangentes e que reflitam melhor as capacidades de aplicações reais.
Limitações dos Benchmarks Tradicionais: Pontuação Alta ≠ Alta Capacidade
Por muito tempo, a comunidade de IA generativa confiou em benchmarks como o MMLU (Massive Multitask Language Understanding) para avaliar a capacidade dos modelos. Esses benchmarks geralmente usam a forma de perguntas de múltipla escolha, cobrindo várias áreas acadêmicas, facilitando a comparação direta. No entanto, essa forma é considerada incapaz de capturar verdadeiramente a capacidade de inteligência da IA. Por exemplo, alguns modelos obtiveram pontuações semelhantes no MMLU, mas seu desempenho em aplicações reais apresentou diferenças significativas, o que indica que uma pontuação alta no papel não representa totalmente a capacidade real.
Além disso, mesmo benchmarks como exames de admissão universitária, altas pontuações não significam que os candidatos possuem o mesmo nível de inteligência ou que sua inteligência atingiu o limite, o que demonstra ainda mais que os benchmarks são apenas uma medida aproximada da capacidade, e não uma medida precisa. Mais preocupante, alguns modelos avançados cometem "erros de baixo nível" em tarefas aparentemente simples, como não conseguir contar corretamente letras específicas em uma palavra ou cometer erros ao comparar o tamanho de números decimais. Esses casos expõem a desconexão entre o progresso impulsionado por benchmarks tradicionais e a confiabilidade da IA no mundo real.
Novos Benchmarks Aparecem: Foco em Raciocínio Geral e Aplicações Práticas
Diante das deficiências dos benchmarks tradicionais, a indústria de IA está ativamente explorando novas estruturas de avaliação. O benchmark ARC-AGI, lançado recentemente, visa impulsionar o desenvolvimento de modelos em direção ao raciocínio geral e à capacidade de resolução de problemas criativos, e tem sido bem recebido pela indústria. Outro novo benchmark notável é o "Exame Final da Humanidade", que inclui 3.000 questões de múltiplas etapas revisadas por pares, abrangendo várias disciplinas, e que tenta desafiar sistemas de IA em raciocínio de nível especialista. Os resultados iniciais mostram que os modelos OpenAI alcançaram 26,6% na pontuação um mês após o lançamento do teste, demonstrando o rápido progresso da IA.
No entanto, semelhante aos benchmarks tradicionais, o "Exame Final da Humanidade" avalia principalmente a capacidade de conhecimento e raciocínio em um ambiente isolado, ignorando a capacidade de uso de ferramentas, cada vez mais importante em aplicações reais. O GPT-4, quando equipado com ferramentas, obteve apenas cerca de 15% no benchmark GAIA mais complexo, o que confirma ainda mais a lacuna entre os benchmarks tradicionais e a capacidade real.
Benchmark GAIA: Um Novo Padrão para Medir a Capacidade de Aplicação Real da IA
Para compensar as deficiências dos benchmarks tradicionais, a indústria lançou o benchmark GAIA, mais próximo das aplicações reais. O GAIA foi criado em colaboração pelas equipes Meta-FAIR, Meta-GenAI, HuggingFace e AutoGPT, e inclui 466 questões cuidadosamente elaboradas, divididas em três níveis de dificuldade. Essas questões testam abrangentemente as capacidades essenciais da IA, como navegação na web, compreensão multimodais, execução de código, processamento de arquivos e raciocínio complexo, essenciais para aplicações comerciais reais de IA.
O design das questões do benchmark GAIA simula a complexidade dos problemas de negócios reais. As questões do Nível 1 exigem cerca de 5 etapas e uma ferramenta para resolver, o Nível 2 exige de 5 a 10 etapas e várias ferramentas, enquanto as questões do Nível 3 podem exigir até 50 etapas discretas e qualquer número de ferramentas. Essa estrutura reflete de forma mais realista o fato de que a resolução de problemas no mundo real geralmente requer vários passos e a cooperação de várias ferramentas.
Resultados Preliminares do GAIA: Destacando a Flexibilidade e a Especialização
Os resultados iniciais do benchmark GAIA mostram que um modelo de IA focado em flexibilidade atingiu uma precisão de 75%, superando o Magnetic-1 (38%) da Microsoft e o Langfun Agent (49%) do Google. O sucesso deste modelo é atribuído ao uso de um modelo especializado que combina compreensão e raciocínio áudio-visual, com o Anthropic's Sonnet3.5 como modelo principal.
O surgimento do GAIA reflete uma mudança mais ampla no campo da avaliação de IA: estamos passando de avaliar aplicativos independentes de Software como Serviço (SaaS) para avaliar agentes de IA capazes de coordenar várias ferramentas e fluxos de trabalho. À medida que as empresas dependem cada vez mais de sistemas de IA para lidar com tarefas complexas e de várias etapas, benchmarks como o GAIA podem fornecer uma medida de capacidade mais significativa do que as tradicionais questões de múltipla escolha.
Acesso ao benchmark: https://huggingface.co/gaia-benchmark