Com o GPT-4 da OpenAI alcançando resultados excepcionais em avaliações matemáticas tradicionais, equipes de pesquisa da Universidade de Pequim e da Alibaba uniram forças para lançar um novo benchmark de avaliação: o Omni-MATH. Seu objetivo é avaliar a capacidade de raciocínio de grandes modelos de linguagem em nível de Olimpíadas de Matemática. Essa iniciativa não apenas fornece um novo padrão para a avaliação da capacidade matemática da IA, mas também abre novas vias para explorar o potencial da IA em matemática avançada.
O Design Único do Omni-MATH
O banco de dados Omni-MATH contém 4428 problemas de matemática de nível competitivo, abrangendo mais de 33 subáreas da matemática, com dificuldades divididas em 10 níveis diferentes. Suas características incluem:
Alta confiabilidade: Todos os problemas são provenientes de várias competições e fóruns de matemática, e as respostas foram verificadas manualmente.
Cobertura ampla: De nível preparatório para Olimpíadas (T4) até competições de matemática de Olimpíadas de alto nível (T0), como IMO, IMC e Putnam.
Consideração da diversidade: Através de métodos de avaliação baseados em GPT-4 e outros modelos de avaliação, otimizou-se a diversidade das respostas aos problemas.
No ranking mais recente, além da versão completa do GPT-4, destacaram-se:
GPT-4-mini: Pontuação média aproximadamente 8% superior à do GPT-4-preview
Qwen2-MATH-72b: Superou o desempenho do GPT-4-turbo
Esses resultados mostram que mesmo modelos menores podem apresentar desempenho excepcional em capacidades específicas.
Profundidade e Amplitude do Sistema de Avaliação
O design do Omni-MATH leva em consideração o processo de seleção e os níveis de dificuldade das competições internacionais de matemática:
Referência aos sistemas de seleção de Olimpíadas de Matemática do Reino Unido e dos Estados Unidos.
Abrange diversas áreas da matemática, de teoria dos números e álgebra a geometria.
As fontes de dados incluem problemas de várias competições, análises e conteúdo de fóruns de sites matemáticos renomados.
Métodos de Avaliação Inovadores
A equipe de pesquisa desenvolveu o Omni-Judge, um verificador de respostas de código aberto. Usando um modelo Llama3-Instruct ajustado, ele pode determinar rapidamente a consistência entre a saída do modelo e a resposta padrão. Esse método garante uma taxa de concordância de 95% e oferece uma solução prática para a avaliação de problemas matemáticos complexos.
O lançamento do Omni-MATH representa não apenas um novo desafio para a capacidade matemática da IA, mas também fornece uma ferramenta de avaliação importante para o futuro desenvolvimento e aplicação da IA em matemática avançada. Com o avanço contínuo da tecnologia de IA, talvez possamos testemunhar, em um futuro próximo, um desempenho surpreendente da IA em competições de matemática de Olimpíadas.
Endereço do projeto: https://github.com/KbsdJames/Omni-MATH/