O FrontierMath é uma plataforma de benchmark de matemática projetada para testar os limites da capacidade da inteligência artificial em resolver problemas matemáticos complexos. Criado em colaboração com mais de 60 matemáticos, ele abrange todo o espectro da matemática moderna, desde a geometria algébrica até a teoria dos conjuntos de Zermelo-Fraenkel. Cada problema do FrontierMath exige horas de trabalho de matemáticos especialistas, e mesmo os sistemas de IA mais avançados, como GPT-4 e Gemini, conseguem resolver menos de 2% dos problemas. Esta plataforma fornece um ambiente de avaliação genuíno, com todos os problemas sendo novos e inéditos, eliminando o problema da contaminação de dados comum em benchmarks existentes.