Durante la transmisión técnica de la madrugada a la 1:00, OpenAI presentó oficialmente sus modelos multimodales más nuevos y poderosos: o4-mini y la versión completa de o3. Estos dos modelos poseen ventajas únicas: no solo procesan texto, imágenes y audio simultáneamente, sino que también funcionan como agentes inteligentes, capaces de llamar automáticamente a herramientas como búsqueda en internet, generación de imágenes y análisis de código. Además, cuentan con un modo de pensamiento profundo que les permite razonar sobre imágenes en una cadena de pensamiento.

Los datos de prueba publicados por OpenAI muestran un rendimiento excepcional de o4-mini. En las pruebas AIME2024 y 2025, su precisión alcanzó el 93.4% y el 92.7%, respectivamente, superando incluso a la versión completa de o3 y convirtiéndose en el modelo con mayor precisión hasta la fecha. En las pruebas de la competición de programación Codeforces, o4-mini obtuvo 2700 puntos, colocándose entre los 200 mejores programadores del mundo.

A diferencia de los modelos grandes tradicionales, OpenAI ha otorgado por primera vez a o3 y o4-mini la capacidad de llamar a herramientas externas. Durante el entrenamiento, los modelos no solo aprendieron a generar texto, sino también a seleccionar las herramientas adecuadas para ayudar en el razonamiento ante tareas complejas. Por ejemplo, para resolver problemas matemáticos complejos, el modelo puede utilizar una calculadora; al procesar datos de imágenes, puede llamar a herramientas de procesamiento de imágenes para realizar operaciones de recorte, rotación, etc. Esta capacidad de uso de herramientas permite que los modelos puedan abordar escenarios de tareas más complejos.

La capacidad de razonamiento multimodal es otro punto destacado de o3 y o4-mini. Pueden procesar simultáneamente datos de diferentes modalidades como texto, imágenes y audio, e integrarlos orgánicamente. OpenAI emplea una innovadora arquitectura de red neuronal que codifica los datos de imagen y texto en una representación de características unificada. Para los datos de imagen, se extraen características mediante una red neuronal convolucional; para los datos de texto, se utiliza un codificador Transformer para extraer información semántica. Luego, un módulo de fusión integra estas características de diferentes modalidades para generar una representación de características unificada, permitiendo el procesamiento conjunto de datos multimodales. Además, el modelo tiene la capacidad de procesar dinámicamente datos de diferentes modalidades, pudiendo ajustar los pesos de procesamiento según las necesidades de la tarea.

En cuanto al entrenamiento, OpenAI utiliza una combinación de aprendizaje no supervisado a gran escala y aprendizaje supervisado en menor medida. En la parte de aprendizaje no supervisado, el modelo se preentrena con una gran cantidad de datos de texto e imagen para aprender las características y patrones básicos del lenguaje y las imágenes; en la parte de aprendizaje supervisado, se ajusta el modelo mediante datos etiquetados y datos de uso de herramientas para que comprenda y utilice mejor las herramientas.

En las pruebas de referencia, o3 y o4-mini mostraron un excelente rendimiento. En la prueba AIME2024, o3 obtuvo una precisión del 91.6% y o4-mini del 93.4%; en la prueba AIME2025, o3 obtuvo una precisión del 88.9% y o4-mini del 92.7%. En la competición de programación (Codeforces), o4-mini alcanzó 2719 puntos, situándose entre los 200 mejores participantes del mundo, mientras que o3 obtuvo 2706 puntos. En la prueba de resolución de problemas de nivel doctoral GPQA, el modelo o3 alcanzó una precisión del 83% y o4-mini del 81.4%. En tareas multimodales, o3 y o4-mini también mostraron un excelente rendimiento en pruebas de referencia multimodales como MMU Math, Vista, Charive y Vstar.

Además de las pruebas convencionales, OpenAI también compartió algunos resultados de pruebas de uso real. En el ámbito de la investigación científica, el modelo puede ayudar a los investigadores a analizar rápidamente datos experimentales, consultar bibliografía y proponer nuevas líneas de investigación; en el ámbito del desarrollo de software, puede ayudar a los desarrolladores a localizar y corregir rápidamente errores en el código. Estos resultados de pruebas de aplicaciones reales demuestran aún más la eficiencia y el enorme potencial de o3 y o4-mini en el manejo de problemas científicos complejos y tareas de desarrollo real.

A partir de hoy, los usuarios de ChatGPT Plus, Pro y Team verán o3, o4-mini y o4-mini-high en el selector de modelos. Los usuarios de ChatGPT Enterprise y Edu tendrán acceso en una semana. Las limitaciones de velocidad de todos los planes se mantienen igual que con los modelos anteriores. La versión completa de o3 y o4-mini también están disponibles para los desarrolladores a través de las API de Chat Completions y Responses. La API de Responses admite la función de resumen de razonamiento, que puede conservar las marcas de razonamiento durante las llamadas a funciones para mejorar el rendimiento, y pronto admitirá herramientas integradas, incluidas la búsqueda web, la búsqueda de archivos y el intérprete de código, para mejorar la capacidad de razonamiento del modelo.