Nuevo desafío de prueba para la inteligencia artificial: ARC-AGI-2 supera a los modelos más avanzados

Recientemente, la Fundación Arc Prize lanzó una nueva prueba, ARC-AGI-2, diseñada para medir el nivel de inteligencia general de los modelos de inteligencia artificial (IA). La fundación fue cofundada por el reconocido investigador de IA François Chollet. Según el blog de la fundación, esta nueva prueba supone un desafío considerable para la mayoría de los modelos de IA líderes.

Según la clasificación de Arc Prize, los modelos de IA "de razonamiento", como o1-pro de OpenAI y R1 de DeepSeek, obtuvieron puntuaciones de entre el 1% y el 1,3% en la prueba ARC-AGI-2. Los modelos no basados en el razonamiento, más potentes, como GPT-4.5, Claude3.7Sonnet y Gemini2.0Flash, también obtuvieron aproximadamente un 1%. La prueba ARC-AGI incluye una serie de rompecabezas que requieren que la IA identifique patrones visuales a partir de bloques de diferentes colores y genere la cuadrícula de "respuesta" correcta. Estas preguntas están diseñadas para obligar a la IA a adaptarse a problemas nuevos e inesperados.

Para establecer un punto de referencia humano, la Fundación Arc Prize invitó a más de 400 personas a participar en la prueba ARC-AGI-2. La puntuación media de este grupo fue del 60%, superando con creces la puntuación de cualquier modelo de IA. Chollet declaró en las redes sociales que ARC-AGI-2 mide la inteligencia real de los modelos de IA de forma más eficaz que su versión anterior, ARC-AGI-1. La nueva prueba está diseñada para evaluar si los sistemas de IA pueden adquirir eficientemente nuevas habilidades que van más allá de sus datos de entrenamiento.

En comparación con ARC-AGI-1, el diseño de ARC-AGI-2 ha mejorado en varios aspectos, especialmente con la introducción de un nuevo indicador de "eficiencia", que exige que los modelos interpreten los patrones instantáneamente sin depender de la memoria. Como dijo el cofundador de la Fundación Arc Prize, Greg Kamradt, la inteligencia no solo reside en la capacidad de resolver problemas, sino que la eficiencia también es un factor clave.

Cabe destacar que el modelo o3 de OpenAI obtuvo una puntuación imbatible del 75,7% en ARC-AGI-1, hasta que fue superado en 2024. Sin embargo, o3 solo obtuvo un 4% en ARC-AGI-2, con un coste computacional de 200 dólares por tarea. El lanzamiento de ARC-AGI-2 se produce en un momento en que la comunidad tecnológica reclama cada vez más nuevos estándares de medición para los avances en IA. Thomas Wolf, cofundador de Hugging Face, declaró que la industria de la IA carece de pruebas suficientes para medir las características clave de lo que se conoce como inteligencia artificial general, incluida la creatividad.

Al mismo tiempo, la Fundación Arc Prize anunció la competición Arc Prize 2025, que reta a los desarrolladores a alcanzar una precisión del 85% en la prueba ARC-AGI-2, con un coste de solo 0,42 dólares por tarea.

Puntos clave:
🌟 ARC-AGI-2 es una nueva prueba de la Fundación Arc Prize diseñada para medir el nivel de inteligencia general de la IA.
📉 Actualmente, los modelos de IA más avanzados obtienen puntuaciones generalmente bajas en esta prueba, muy por debajo de la media humana.
🏆 La Fundación Arc Prize también organizará un concurso para animar a los desarrolladores a mejorar el rendimiento de la IA en la nueva prueba a bajo coste.

Noticias de IA

Nuevo desafío de prueba para la inteligencia artificial: ARC-AGI-2 supera a los modelos más avanzados

AIbase基地