Recentemente, a equipe do modelo Doubao da ByteDance, em conjunto com a comunidade de código aberto M-A-P, lançou o SuperGPQA, um benchmark de raciocínio de conhecimento que abrange 285 disciplinas de pós-graduação e contém 26.529 questões especializadas.

QQ20250304-140137.pngQQ20250304-140137.png

Este conjunto de dados não apenas abrange disciplinas principais como matemática e física, mas também inclui pela primeira vez disciplinas de nicho como indústria leve, agricultura e ciências de serviço no sistema de avaliação, preenchendo a lacuna nos benchmarks existentes na área de conhecimento de nicho. O SuperGPQA tem sido usado para revelar a diferença de desempenho entre modelos de código aberto e fechado, tornando-se uma ferramenta importante para o desenvolvimento da IA.

Benchmarks tradicionais como MMLU e GPQA cobrem menos de 50 disciplinas, com disciplinas de nicho representando menos de 5%, e devido à única fonte de dados (como a Wikipédia) e à rotulagem de crowdsourcing não confiável, é difícil medir a capacidade de raciocínio do modelo em cenários complexos. O SuperGPQA, através de um mecanismo de colaboração especialista-LLM, seleciona questões de fontes confiáveis e levou seis meses para ser construído. Suas questões oferecem em média 9,67 opções, sendo que 42,33% exigem cálculos matemáticos ou raciocínio formal, combinando amplitude e profundidade. Os experimentos mostram que a precisão do melhor modelo, DeepSeek-R1, é de apenas 61,82%, indicando que os modelos de linguagem grandes atuais ainda têm espaço para melhoria em diversas áreas de conhecimento.

QQ20250304-140147.png

O SuperGPQA utiliza um processo de três etapas para melhorar a qualidade: seleção de questões originais por especialistas, transcrição padronizada e inspeção de qualidade em várias camadas (filtragem de regras, detecção por LLM e revisão por especialistas). Os resultados da avaliação mostram que o ajuste fino de instruções melhora significativamente o desempenho, como o DeepSeek-V3 obtendo pontuação superior à versão básica, mas os modelos de código aberto ainda ficam atrás das soluções de código fechado em questões difíceis.

Link do artigo:https://arxiv.org/pdf/2502.14739

Link dos dados:https://huggingface.co/datasets/m-a-p/SuperGPQA

Link do código:https://github.com/SuperGPQA/SuperGPQA