O desenvolvimento de modelos de inteligência artificial (IA) é vertiginoso, e enquanto os desenvolvedores de tecnologia aprimoram seu desempenho, também surge a preocupação dos usuários com a veracidade dos resultados. Para resolver essa questão, o Vector Institute, fundado por Geoffrey Hinton, lançou um estudo de avaliação para pesquisa em IA: “Avaliação do Estado da Arte”. Este estudo avalia de forma abrangente 11 modelos de ponta, de código aberto e proprietários, por meio de um ranking interativo, cobrindo 16 benchmarks em áreas como matemática, conhecimento geral, codificação e segurança.

John Willes, gerente de infraestrutura de IA e engenharia de pesquisa do Vector Institute, afirma: "Pesquisadores, desenvolvedores, reguladores e usuários finais podem verificar os resultados de forma independente, comparar o desempenho dos modelos e construir seus próprios benchmarks e avaliações, impulsionando assim melhorias e responsabilização."

Grandes modelos, Metaverso (2)

Nota da imagem: Imagem gerada por IA, provedor de serviços de licenciamento de imagens Midjourney

Nesta avaliação, os modelos de melhor desempenho incluem o DeepSeek e o o1 da OpenAI, enquanto o Command R+ apresentou desempenho inferior, principalmente devido ao seu tamanho menor e idade mais avançada entre os modelos testados.

O estudo descobriu que os modelos proprietários geralmente superam os modelos de código aberto em tarefas complexas de conhecimento e raciocínio, mas o excelente desempenho do DeepSeek demonstra que os modelos de código aberto também podem ser competitivos. Willes observa: "Em tarefas simples, esses modelos são bastante capazes, mas à medida que a complexidade da tarefa aumenta, observamos uma queda significativa na capacidade de raciocínio e compreensão."

Além disso, todos os 11 modelos enfrentaram desafios nos "benchmarks de proxy" que avaliam a capacidade de resolver problemas reais, especialmente em engenharia de software e outras tarefas que exigem raciocínio e planejamento abertos, havendo ainda um longo caminho a percorrer. Para resolver isso, o Vector Institute desenvolveu o benchmark de compreensão multi-modal massiva de múltiplas tarefas (MMMU), que avalia a capacidade dos modelos de lidar com imagens e texto.

Na avaliação de compreensão multi-modal, o o1 demonstrou capacidade "excelente", especialmente em diferentes formatos e níveis de dificuldade. No entanto, Willes enfatiza que ainda são necessários mais esforços para alcançar sistemas verdadeiramente multimodais, capazes de processar uniformemente entradas de texto, imagem e áudio.

Em relação aos desafios da avaliação, Willes aponta que o vazamento de avaliação é um problema importante, ou seja, os modelos se saem bem em conjuntos de dados de avaliação familiares, mas não em dados novos. Ele acredita que o desenvolvimento de benchmarks mais inovadores e avaliações dinâmicas será crucial para resolver esse problema.