¡Desconsolador! Epoch AI lanza FrontierMath, un nuevo benchmark matemático; los modelos de IA de primer nivel resuelven menos del 2%

En el vasto universo de la inteligencia artificial, las matemáticas se consideraban el último bastión de la inteligencia de las máquinas. Ahora, una nueva prueba de referencia llamada FrontierMath ha irrumpido en escena, llevando la capacidad de razonamiento matemático de la IA a límites sin precedentes.

Epoch AI, junto con más de 60 de las mentes más brillantes del mundo de las matemáticas, ha creado este campo de batalla para la IA, una especie de "Olimpiadas de Matemáticas". Esto no es solo una prueba tecnológica, sino también la prueba definitiva de la sabiduría matemática de la inteligencia artificial.

Imagine un laboratorio lleno de matemáticos de talla mundial, que han diseñado cuidadosamente cientos de problemas matemáticos que superan la imaginación humana. Estos problemas abarcan las áreas más vanguardistas de las matemáticas, como la teoría de números, el análisis real, la geometría algebraica y la teoría de categorías, con un nivel de complejidad asombroso. Incluso un genio matemático con una medalla de oro en las Olimpiadas Internacionales de Matemáticas necesitaría horas, incluso días, para resolver un solo problema.

Lo sorprendente es que el rendimiento de los modelos de IA más avanzados en esta prueba de referencia es decepcionante: ningún modelo puede resolver más del 2% de los problemas. Este resultado es como un golpe en la cara para la IA.

Lo único de FrontierMath radica en su riguroso mecanismo de evaluación. Los benchmarks matemáticos tradicionales como MATH y GSM8K han sido "superados" por la IA, mientras que este nuevo benchmark, mediante problemas nuevos e inéditos y un sistema de verificación automatizado, evita eficazmente la contaminación de datos y prueba realmente la capacidad de razonamiento matemático de la IA.

Los modelos insignia de las principales empresas de IA, como OpenAI, Anthropic y Google DeepMind, han "fracasado" en esta prueba. Esto refleja una profunda filosofía tecnológica: para las computadoras, los problemas matemáticos aparentemente complejos pueden ser fáciles, mientras que las tareas que los humanos consideran sencillas pueden resultar insuperables para la IA.

Como dijo Andrej Karpathy, esto confirma la paradoja de Moravec: la dificultad de las tareas de inteligencia para los humanos y las máquinas a menudo es contraintuitiva. Esta prueba de referencia no solo es un examen riguroso de las capacidades de la IA, sino también un catalizador para impulsar la evolución de la inteligencia artificial a una dimensión superior.

Para el mundo de las matemáticas y los investigadores de IA, FrontierMath es como el Everest aún sin conquistar. No solo prueba el conocimiento y las habilidades, sino que también pone a prueba la perspicacia y el pensamiento creativo. En el futuro, quien conquiste primero esta cima de la inteligencia, entrará en los anales de la historia del desarrollo de la inteligencia artificial.

Noticias de IA

¡Desconsolador! Epoch AI lanza FrontierMath, un nuevo benchmark matemático; los modelos de IA de primer nivel resuelven menos del 2%

AIbase基地

Noticias de IA relacionadas recomendadas

El Departamento de Justicia de EE. UU. exige a Google que venda Chrome y relaje las restricciones a las inversiones en IA

Tongyi App lanza el modelo de inteligencia artificial Qianwen QwQ-32B: Experiencia de IA mejorada continuamente

Manus, el asistente de IA multifuncional creado por el equipo de Monica, es un éxito rotundo. ¿Cómo conseguir un código de invitación para Manus?

Quantexa recauda 175 millones de dólares, alcanzando una valoración de 2600 millones y reforzando sus negocios de análisis de datos e inteligencia artificial