El último modelo de OpenAI, o3, ha logrado resultados sorprendentes en el benchmark ARC-AGI, alcanzando una puntuación del 75,7% en condiciones de cálculo estándar y un impresionante 87,5% en la versión de alto cálculo. Este logro ha sorprendido a la comunidad investigadora de IA, pero no prueba que la inteligencia artificial general (AGI) haya sido resuelta.

El benchmark ARC-AGI se basa en el Corpus de Razonamiento Abstracto (Abstract Reasoning Corpus), diseñado para evaluar la capacidad de los sistemas de IA para adaptarse a nuevas tareas y mostrar inteligencia fluida. ARC incluye una serie de rompecabezas visuales que requieren comprender conceptos básicos como objetos, límites y relaciones espaciales. Los humanos resuelven estos rompecabezas fácilmente, mientras que los sistemas de IA actuales enfrentan grandes desafíos. ARC se considera uno de los estándares de evaluación de IA más exigentes.

image.png

El rendimiento de o3 supera significativamente a los modelos anteriores. o1-preview y o1 alcanzaron una puntuación máxima del 32% en ARC-AGI. Anteriormente, el investigador Jeremy Berman, utilizando un método híbrido que combinaba Claude3.5Sonnet con algoritmos genéticos, obtuvo un 53%, mientras que o3 representa un salto cualitativo en la capacidad de la IA.

François Chollet, creador de ARC, elogia la transformación en la capacidad de la IA demostrada por o3, considerando que su capacidad de adaptación a nuevas tareas ha alcanzado un nivel sin precedentes.

A pesar del excelente rendimiento de o3, su costo computacional es considerable. En una configuración de bajo cálculo, el costo de resolver cada rompecabezas oscila entre 17 y 20 dólares, consumiendo 33 millones de tokens; en una configuración de alto cálculo, el costo aumenta 172 veces, utilizando miles de millones de tokens. Sin embargo, a medida que el costo de la inferencia disminuya, estos gastos podrían volverse más razonables.

image.png

Actualmente no hay información detallada sobre cómo o3 ha logrado este avance. Algunos científicos especulan que o3 podría utilizar un método de síntesis de programas, combinando el pensamiento en cadena y mecanismos de búsqueda. Otros sugieren que o3 simplemente podría ser una extensión del aprendizaje por refuerzo.

image.png

Aunque o3 ha logrado un progreso significativo en ARC-AGI, Chollet enfatiza que ARC-AGI no es una prueba de AGI, y o3 aún no cumple con los estándares de AGI. Sigue mostrando un rendimiento deficiente en algunas tareas simples, revelando diferencias fundamentales con la inteligencia humana. Además, o3 aún depende de la verificación externa durante el proceso de razonamiento, lo que difiere de la capacidad de aprendizaje independiente de la AGI.

El equipo de Chollet está desarrollando nuevos benchmarks más desafiantes para probar las capacidades de o3, esperando reducir su puntuación a menos del 30%. Señala que una verdadera AGI significaría que sería casi imposible crear tareas simples para los humanos pero difíciles para la IA.

Puntos clave:

🌟 o3 obtuvo una alta puntuación del 75,7% en el benchmark ARC-AGI, superando a modelos anteriores.

💰 El costo de resolver cada rompecabezas con o3 es de 17 a 20 dólares, con un enorme consumo computacional.

🚫 A pesar del excelente rendimiento de o3, los expertos enfatizan que aún no alcanza los estándares de AGI.