Lors d'une diffusion technique en direct à 1 heure du matin aujourd'hui, OpenAI a officiellement lancé ses derniers modèles multimodaux, les plus puissants à ce jour : o4-mini et la version complète o3. Ces deux modèles présentent des avantages uniques : ils peuvent traiter simultanément du texte, des images et de l'audio, et peuvent fonctionner comme des agents capables d'appeler automatiquement des outils tels que la recherche sur le Web, la génération d'images et l'analyse de code. Ils disposent également d'un mode de réflexion approfondie, permettant une réflexion sur les images au sein d'une chaîne de pensée.

Les données de test publiées par OpenAI montrent que le modèle o4-mini affiche des performances exceptionnelles. Lors des tests AIME 2024 et 2025, sa précision a atteint respectivement 93,4 % et 92,7 %, surpassant même la version complète o3 et devenant ainsi le modèle le plus précis à ce jour. Lors des tests de compétition de programmation Codeforces, o4-mini a obtenu 2700 points, se classant parmi les 200 meilleurs programmeurs au monde.

Contrairement aux modèles linguistiques traditionnels, OpenAI a, pour la première fois, doté les modèles o3 et o4-mini de la capacité d'appeler des outils externes. Durant l'entraînement, les modèles n'ont pas seulement appris la génération de texte, mais aussi comment choisir les outils appropriés pour faciliter le raisonnement face à des tâches complexes. Par exemple, pour résoudre des problèmes mathématiques complexes, le modèle peut utiliser une calculatrice ; pour traiter des données d'images, il peut utiliser des outils de traitement d'images pour le recadrage, la rotation, etc. Cette capacité d'utilisation d'outils permet aux modèles de gérer des scénarios de tâches plus complexes.

La capacité de raisonnement multimodal est un autre point fort des modèles o3 et o4-mini. Ils peuvent traiter simultanément des données de différents modes, tels que le texte, les images et l'audio, et les intégrer de manière organique. OpenAI utilise une architecture de réseau neuronal innovante pour encoder séparément les données images et texte en une représentation de caractéristiques unifiée. Pour les données d'images, des réseaux neuronaux convolutifs sont utilisés pour extraire les caractéristiques ; pour les données textuelles, un encodeur Transformer est utilisé pour extraire les informations sémantiques. Ensuite, un module de fusion intègre ces caractéristiques multimodales pour générer une représentation de caractéristiques unifiée, permettant le traitement conjoint des données multimodales. De plus, les modèles possèdent une capacité de traitement dynamique des données multimodales, pouvant ajuster dynamiquement les pondérations de traitement en fonction des besoins de la tâche.

Pour l'entraînement, OpenAI a combiné un apprentissage non supervisé à grande échelle et un apprentissage supervisé limité. Pour la partie apprentissage non supervisé, le modèle a été pré-entraîné sur un grand nombre de données textuelles et d'images afin d'apprendre les caractéristiques et les schémas de base du langage et des images. Pour la partie apprentissage supervisé, le modèle a été finement ajusté à l'aide de données annotées et de données d'utilisation d'outils, afin de mieux comprendre et utiliser les outils.

Lors des tests de référence, les modèles o3 et o4-mini ont affiché d'excellentes performances. Lors du test AIME 2024, la précision de o3 était de 91,6 % et celle de o4-mini de 93,4 %; lors du test AIME 2025, la précision de o3 était de 88,9 % et celle de o4-mini de 92,7 %. Lors des tests de compétition de programmation (Codeforces), o4-mini a atteint 2719 points, se classant parmi les 200 meilleurs participants au monde, tandis que o3 a obtenu 2706 points. Lors du test de réponse à des questions de niveau doctorat GPQA, le modèle o3 a atteint une précision de 83 %, et o4-mini de 81,4 %. Concernant les tâches multimodales, o3 et o4-mini ont également affiché d'excellentes performances lors de tests de référence multimodaux tels que MMU Math, Vista, Charive et Vstar.

Outre les tests classiques, OpenAI a également partagé les résultats de tests d'utilisation réels. Dans le domaine de la recherche scientifique, les modèles peuvent aider les chercheurs à analyser rapidement les données expérimentales, à consulter la littérature et à proposer de nouvelles pistes de recherche ; dans le domaine du développement logiciel, ils peuvent aider les développeurs à localiser et à corriger rapidement les erreurs de code. Ces résultats de tests d'applications réelles confirment l'efficacité et le potentiel énorme des modèles o3 et o4-mini dans le traitement de problèmes scientifiques complexes et de tâches de développement réelles.

À partir d'aujourd'hui, les utilisateurs de ChatGPT Plus, Pro et Team verront o3, o4-mini et o4-mini-high dans le sélecteur de modèles. Les utilisateurs de ChatGPT Enterprise et Edu auront accès dans une semaine. Les limites de vitesse pour tous les plans restent les mêmes que pour les modèles précédents. Les versions complètes de o3 et o4-mini sont également disponibles pour les développeurs via les API Chat Completions et Responses. L'API Responses prend en charge la fonction de résumé de raisonnement, qui permet de conserver les jetons de raisonnement lors des appels de fonction pour améliorer les performances, et prendra bientôt en charge des outils intégrés, notamment la recherche Web, la recherche de fichiers et l'interpréteur de code, afin d'améliorer les capacités de raisonnement du modèle.