Récemment, les performances du modèle d'intelligence artificielle o3 d'OpenAI lors de tests de référence ont suscité une vive controverse. Bien qu'OpenAI ait affirmé avec assurance en décembre dernier, lors du lancement initial de o3, que le modèle pouvait répondre correctement à plus d'un quart des problèmes du très difficile ensemble de problèmes mathématiques FrontierMath, cette affirmation contraste fortement avec les résultats de tests indépendants récents.

L'Epoch Institute a réalisé des tests indépendants du modèle o3, révélant un score réel de seulement 10 %, bien inférieur aux 25 % annoncés par OpenAI. Lors d'une démonstration publique du responsable de la recherche d'OpenAI, Mark Chen, il a indiqué que les résultats des tests internes du modèle o3 étaient excellents, surpassant de loin les concurrents dont le taux de réussite sur le même ensemble de problèmes était inférieur à 2 %. Cependant, ce score élevé et idéal a probablement été obtenu grâce à une version de o3 utilisant des ressources informatiques plus puissantes, et non la version officiellement lancée la semaine dernière.

OpenAI, ChatGPT, intelligence artificielle, IA

Dans son rapport, Epoch souligne que les différences de résultats peuvent provenir de plusieurs facteurs, notamment l'utilisation par OpenAI d'un cadre de calcul plus avancé et de conditions de test différentes. L'institut mentionne également que son évaluation est basée sur une version plus récente de FrontierMath, ce qui pourrait expliquer la différence de résultats.

Par ailleurs, la fondation ARC Prize a publié une déclaration indiquant que le modèle o3 publié publiquement diffère considérablement de la version préliminaire qu'elle avait testée précédemment. La version publique a été ajustée pour les conversations et l'utilisation de produits, et les niveaux de calcul sont généralement plus faibles. En général, plus le niveau de calcul est élevé, meilleur est le score aux tests de référence.

Bien que le modèle o3 n'ait pas entièrement atteint les standards de test d'OpenAI, cela ne semble pas affecter ses performances sur le marché, car les modèles o3-mini-high et o4-mini récemment lancés par OpenAI ont obtenu de meilleurs résultats sur FrontierMath. Plus prometteur encore, OpenAI devrait lancer prochainement une version plus puissante de o3 : o3-pro.

Cet événement rappelle une fois de plus au public qu'il ne faut pas faire entièrement confiance aux résultats des tests de référence de l'IA, en particulier ceux provenant d'entreprises soumises à la pression du lancement de produits. Dans le secteur concurrentiel de l'IA, les différents fabricants, afin de se disputer des parts de marché, ont souvent tendance à lancer rapidement de nouveaux modèles, ce qui accroît les controverses autour des tests de référence.