Recentemente, uma controvérsia sobre benchmarks de inteligência artificial tem ganhado destaque público. Um funcionário da OpenAI acusou a xAI, empresa de IA fundada por Elon Musk, de publicar resultados enganosos do benchmark Grok3, enquanto o cofundador da xAI, Igor Babuschkin, insiste que não houve irregularidades.
O incidente começou com a publicação de um gráfico no blog da xAI, mostrando o desempenho do Grok3 no teste AIME2025. O AIME2025 é um conjunto de problemas matemáticos desafiadores de uma competição matemática recente. Embora alguns especialistas questionem a validade do AIME como benchmark de IA, ele ainda é amplamente usado para avaliar a capacidade matemática dos modelos.
O gráfico da xAI mostrou que duas variantes do Grok3 — Grok3Reasoning Beta e Grok3mini Reasoning — superaram o modelo atual de ponta da OpenAI, o o3-mini-high, no AIME2025. No entanto, funcionários da OpenAI rapidamente apontaram que o gráfico da xAI não incluía a pontuação do o3-mini-high no AIME2025 calculada com "cons@64".
Então, o que é cons@64? É a abreviação de "consensus@64". Simplificando, ele dá ao modelo 64 tentativas para responder a cada pergunta e usa a resposta mais comum como resposta final. É fácil imaginar que o mecanismo de pontuação cons@64 aumentaria significativamente a pontuação de um modelo no benchmark. Portanto, omitir esse dado no gráfico pode dar a impressão enganosa de que um modelo superou outro, quando na verdade não foi o caso.
As pontuações "@1" do Grok3Reasoning Beta e do Grok3mini Reasoning no AIME2025 — ou seja, a pontuação obtida na primeira tentativa — foram, na verdade, inferiores às do o3-mini-high. O desempenho do Grok3Reasoning Beta também foi ligeiramente inferior ao do modelo o1 da OpenAI. Apesar disso, a xAI ainda promoveu o Grok3 como a "IA mais inteligente do mundo".
Babuschkin respondeu nas redes sociais afirmando que a OpenAI também publicou gráficos de benchmark enganosos no passado, principalmente comparando o desempenho de seus próprios modelos. Um especialista independente compilou uma tabela mais "precisa" do desempenho de vários modelos, gerando uma discussão mais ampla.
Além disso, o pesquisador de IA Nathan Lambert apontou que um indicador ainda mais importante permanece obscuro: o custo computacional (e financeiro) necessário para que cada modelo alcance sua melhor pontuação. Isso sugere que a maioria dos benchmarks de IA atuais fornece informações limitadas sobre as limitações e vantagens dos modelos.
Pontos importantes:
🔍 A disputa entre xAI e OpenAI sobre os resultados do benchmark Grok3 gerou grande atenção.
📊 O gráfico da xAI não incluiu o indicador de pontuação crucial "cons@64" do modelo OpenAI, o que pode ter levado a interpretações errôneas.
💰 O custo computacional e financeiro por trás do desempenho dos modelos de IA ainda é um mistério.