En su evento de lanzamiento de 12 días, OpenAI anunció la nueva generación de modelos de razonamiento: o3 y su versión reducida, o3-mini. Estos modelos son los sucesores de la serie o1, diseñados específicamente para pensar más profundamente antes de responder preguntas, mejorando así la precisión.
El modelo o3 ha alcanzado un excelente nivel en el benchmark ARC-AGI, convirtiéndose en el primer modelo de IA en superar este estándar y demostrando una capacidad de resolución de problemas cercana a la humana. El rendimiento mínimo del modelo o3 en ARC-AGI es del 75.7%, alcanzando el 87.5% con más recursos computacionales.
El modelo o3-mini se centra en mejorar la velocidad de razonamiento y reducir los costes, manteniendo al mismo tiempo el rendimiento. Es especialmente adecuado para tareas de programación. OpenAI planea lanzar o3-mini a finales de enero, seguido del modelo o3 completo poco después. Aunque la serie o3 no se lanzará públicamente de inmediato, sino que primero se someterá a pruebas de seguridad, OpenAI ya ha comenzado a permitir que los investigadores de seguridad se registren para acceder a las versiones preliminares de o3 y o3-mini.
En la resolución de problemas de programación y matemáticas, el modelo o3 ha demostrado una capacidad notable. En el benchmark SWE-bench Verified, la precisión de o3 es de aproximadamente el 71.7%, un 20% más que el modelo o1. En Competition Code, o3 obtuvo una puntuación Elo de 2727, mientras que o1 solo obtuvo 1891. Además, o3 alcanzó una precisión del 96.7% en matemáticas de competición y del 87.7% en GPQA Diamond, casi un 10% más que o1.
OpenAI también presentó un nuevo método de evaluación de seguridad: el "alineamiento deliberativo" (deliberative alignment). Este es un nuevo paradigma que enseña directamente al modelo las normas de seguridad y le permite recordarlas explícitamente y razonar con precisión antes de responder. Este método se utilizó para alinear los modelos de la serie o de OpenAI y logró un alto grado de cumplimiento de las políticas de seguridad de OpenAI.
Actualmente, OpenAI está llevando a cabo pruebas de seguridad externas y ha abierto solicitudes de acceso anticipado en su sitio web. Los solicitantes deben completar un formulario en línea y proporcionar la información pertinente. Los investigadores seleccionados recibirán acceso a o3 y o3-mini para explorar sus capacidades y contribuir a la evaluación de seguridad.