Les nouveaux systèmes d'OpenAI ont obtenu d'excellents résultats lors de récentes évaluations, se classant premiers au classement des robots conversationnels. Cependant, le faible nombre de notes pourrait fausser les résultats de l'évaluation.

QQ20240920-103932.png

Selon le résumé publié, ces nouveaux systèmes ont excellé dans toutes les catégories d'évaluation, notamment les performances globales, la sécurité et les capacités techniques. Un système spécialement conçu pour les tâches STEM, lancé conjointement avec la version GPT-4o début septembre, s'est brièvement classé deuxième et a pris la tête dans le domaine technique.

Chatbot Arena, une plateforme de comparaison de différents systèmes, a évalué les nouveaux systèmes en utilisant plus de 6 000 notes de la communauté. Les résultats montrent que ces nouveaux systèmes ont excellé dans les tâches mathématiques, les invites complexes et la programmation.

QQ20240920-103553.png

Cependant, ces nouveaux systèmes ont reçu beaucoup moins de notes que d'autres systèmes établis, tels que GPT-4o ou Claude 3.5 d'Anthropic, avec moins de 3 000 commentaires par système. Un échantillon aussi petit pourrait fausser l'évaluation et limiter l'importance des résultats.

Les nouveaux systèmes d'OpenAI excellent en mathématiques et en codage, objectifs principaux de leur conception. En « réfléchissant » plus longtemps avant de répondre, ces systèmes visent à établir une nouvelle norme pour le raisonnement de l'IA. Cependant, ces systèmes ne surpassent pas les autres dans tous les domaines. De nombreuses tâches ne nécessitent pas de raisonnement logique complexe, et la rapidité de réponse d'autres systèmes suffit parfois.

Le graphique de Lmsys sur la puissance des modèles mathématiques montre clairement que ces nouveaux systèmes ont obtenu un score supérieur à 1360, dépassant de loin les performances des autres systèmes.