Com o GPT-4 da OpenAI alcançando resultados excepcionais em avaliações matemáticas tradicionais, equipes de pesquisa da Universidade de Pequim e da Alibaba uniram forças para lançar um novo benchmark de avaliação: o Omni-MATH. Seu objetivo é avaliar a capacidade de raciocínio de grandes modelos de linguagem em nível de Olimpíadas de Matemática. Essa iniciativa não apenas fornece um novo padrão para a avaliação da capacidade matemática da IA, mas também abre novas vias para explorar o potencial da IA em matemática avançada.

image.png

O Design Único do Omni-MATH

O banco de dados Omni-MATH contém 4428 problemas de matemática de nível competitivo, abrangendo mais de 33 subáreas da matemática, com dificuldades divididas em 10 níveis diferentes. Suas características incluem:

Alta confiabilidade: Todos os problemas são provenientes de várias competições e fóruns de matemática, e as respostas foram verificadas manualmente.

Cobertura ampla: De nível preparatório para Olimpíadas (T4) até competições de matemática de Olimpíadas de alto nível (T0), como IMO, IMC e Putnam.

Consideração da diversidade: Através de métodos de avaliação baseados em GPT-4 e outros modelos de avaliação, otimizou-se a diversidade das respostas aos problemas.

No ranking mais recente, além da versão completa do GPT-4, destacaram-se:

GPT-4-mini: Pontuação média aproximadamente 8% superior à do GPT-4-preview

Qwen2-MATH-72b: Superou o desempenho do GPT-4-turbo

Esses resultados mostram que mesmo modelos menores podem apresentar desempenho excepcional em capacidades específicas.

Profundidade e Amplitude do Sistema de Avaliação

O design do Omni-MATH leva em consideração o processo de seleção e os níveis de dificuldade das competições internacionais de matemática:

Referência aos sistemas de seleção de Olimpíadas de Matemática do Reino Unido e dos Estados Unidos.

Abrange diversas áreas da matemática, de teoria dos números e álgebra a geometria.

As fontes de dados incluem problemas de várias competições, análises e conteúdo de fóruns de sites matemáticos renomados.

Métodos de Avaliação Inovadores

A equipe de pesquisa desenvolveu o Omni-Judge, um verificador de respostas de código aberto. Usando um modelo Llama3-Instruct ajustado, ele pode determinar rapidamente a consistência entre a saída do modelo e a resposta padrão. Esse método garante uma taxa de concordância de 95% e oferece uma solução prática para a avaliação de problemas matemáticos complexos.

O lançamento do Omni-MATH representa não apenas um novo desafio para a capacidade matemática da IA, mas também fornece uma ferramenta de avaliação importante para o futuro desenvolvimento e aplicação da IA em matemática avançada. Com o avanço contínuo da tecnologia de IA, talvez possamos testemunhar, em um futuro próximo, um desempenho surpreendente da IA em competições de matemática de Olimpíadas.

Endereço do projeto: https://github.com/KbsdJames/Omni-MATH/