Tras los excelentes resultados de GPT-4 de OpenAI en evaluaciones matemáticas tradicionales, un equipo conjunto de la Universidad de Pekín y Alibaba ha lanzado un nuevo conjunto de referencia, Omni-MATH, diseñado para evaluar la capacidad de razonamiento de los grandes modelos de lenguaje en el nivel de las Olimpiadas Matemáticas. Esta iniciativa no solo proporciona un nuevo estándar para la evaluación de las capacidades matemáticas de la IA, sino que también abre nuevas vías para explorar el potencial de la IA en el campo de las matemáticas avanzadas.
El diseño único de Omni-MATH
La base de datos de evaluación Omni-MATH contiene 4428 problemas matemáticos de nivel competitivo, que abarcan más de 33 subcampos matemáticos y se dividen en 10 niveles de dificultad. Sus características incluyen:
Alta fiabilidad: Todos los problemas provienen de diversas competiciones y foros de matemáticas, y las respuestas han sido verificadas manualmente.
Amplia cobertura: Desde el nivel preparatorio para las Olimpiadas (T4) hasta las competiciones matemáticas de Olimpiadas de alto nivel (T0), como IMO, IMC y Putnam.
Consideración de la diversidad: Se ha optimizado la diversidad de las respuestas mediante el uso de GPT-4 y otros modelos de evaluación.
En la clasificación más reciente, además de la versión completa de GPT-4, destacan:
GPT-4-mini: Su puntuación media es aproximadamente un 8% superior a la de GPT-4-preview.
Qwen2-MATH-72b: Superó la puntuación de GPT-4-turbo.
Estos resultados muestran que incluso los modelos pequeños pueden tener un rendimiento excepcional en capacidades específicas.
Profundidad y amplitud del sistema de evaluación
El diseño de Omni-MATH considera cuidadosamente el proceso de selección y los niveles de dificultad de las competiciones matemáticas internacionales:
Se basa en los sistemas de selección de Olimpiadas Matemáticas de países como Reino Unido y Estados Unidos.
Cubre múltiples áreas matemáticas, desde la teoría de números y el álgebra hasta la geometría.
Las fuentes de datos incluyen problemas de diversas competiciones, análisis y contenido de foros de sitios web matemáticos de renombre.
Métodos de evaluación innovadores
El equipo de investigación ha desarrollado Omni-Judge, un verificador de respuestas de código abierto que utiliza un modelo Llama3-Instruct ajustado para determinar rápidamente la consistencia entre la salida del modelo y la respuesta estándar. Este método garantiza una tasa de coincidencia del 95% y ofrece una solución sencilla para la evaluación de problemas matemáticos complejos.
El lanzamiento de Omni-MATH no solo supone un nuevo desafío para la capacidad matemática de la IA, sino que también proporciona una herramienta de evaluación importante para las futuras aplicaciones y el desarrollo de la IA en el campo de las matemáticas avanzadas. Con el continuo avance de la tecnología de la IA, es posible que en un futuro próximo seamos testigos de un rendimiento sorprendente de la IA en las Olimpiadas Matemáticas.
Dirección del proyecto: https://github.com/KbsdJames/Omni-MATH/