OpenAI a annoncé, lors de son événement de lancement de 12 jours, une nouvelle génération de modèles de raisonnement : o3 et sa version allégée o3-mini. Ces deux modèles sont considérés comme les successeurs de la série o1, spécialement conçus pour réfléchir plus profondément avant de répondre aux questions, afin d'améliorer la précision.

Le modèle o3 a atteint un excellent niveau dans les tests de référence ARC-AGI, devenant le premier modèle d'IA à franchir ce seuil et démontrant une capacité de résolution de problèmes proche de celle des humains. Les performances minimales du modèle o3 sur l'ARC-AGI atteignent 75,7 %, pouvant monter jusqu'à 87,5 % avec des ressources de calcul plus importantes.

Le modèle o3-mini se concentre sur l'amélioration de la vitesse de raisonnement et la réduction des coûts, tout en maintenant les performances du modèle. Il est particulièrement adapté aux tâches de programmation. OpenAI prévoit de lancer o3-mini fin janvier, suivi peu après du modèle o3 complet. Bien que les modèles de la série o3 ne soient pas directement publiés publiquement, mais soumis à des tests de sécurité, OpenAI a commencé à permettre aux chercheurs en sécurité de s'inscrire pour accéder à des versions préliminaires de o3 et o3-mini.

Le modèle de raisonnement le plus puissant d'OpenAI, o3, est lancé : capacité AGI en forte hausse, proche du niveau humain

En matière de programmation et de résolution de problèmes mathématiques, le modèle o3 a démontré des capacités remarquables. Sur le benchmark SWE-bench Verified, la précision de o3 est d'environ 71,7 %, soit plus de 20 % de mieux que le modèle o1. Dans Competition Code, o3 a obtenu un score Elo de 2727, contre 1891 pour o1. De plus, o3 atteint une précision de 96,7 % en mathématiques de compétition et de 87,7 % sur GPQA Diamond, soit près de 10 % de plus que o1.

OpenAI a également présenté une nouvelle méthode d'évaluation de la sécurité : l'alignement délibératif (deliberative alignment). Il s'agit d'un nouveau paradigme qui consiste à enseigner directement les règles de sécurité au modèle, et qui permet au modèle de se rappeler explicitement ces règles et d'effectuer un raisonnement précis avant de répondre. Cette méthode a été utilisée pour aligner les modèles de la série o d'OpenAI et a permis un respect extrêmement précis des politiques de sécurité d'OpenAI.

Actuellement, OpenAI mène des tests de sécurité externes et a ouvert des demandes d'accès anticipé sur son site web. Les candidats doivent remplir un formulaire en ligne et fournir des informations pertinentes. Les chercheurs sélectionnés se verront accorder l'accès à o3 et o3-mini afin d'explorer leurs capacités et de contribuer à l'évaluation de la sécurité.