Une étude récente menée par OpenAI révèle que, malgré les progrès rapides de l'intelligence artificielle, les modèles linguistiques les plus avancés actuels affichent un taux de réussite bien inférieur aux attentes lorsqu'il s'agit de répondre à des questions factuelles.

L'étude a utilisé le benchmark SimpleQA d'OpenAI, qui comprend 4 326 questions couvrant divers domaines tels que les sciences, la politique et les arts, chaque question ayant une réponse correcte définie.

image.png

Après vérification par deux évaluateurs indépendants, les résultats montrent que le meilleur modèle d'OpenAI, o1-preview, n'a atteint qu'un taux de précision de 42,7 %, tandis que GPT-4o a légèrement moins bien performé avec 38,2 %. Quant au plus petit modèle, GPT-4o-mini, son taux de précision n'est que de 8,6 %. En comparaison, le modèle Claude d'Anthropic a obtenu des résultats encore plus faibles, avec un taux de précision de seulement 28,9 % pour Claude-3.5-sonnet.

image.png

L'élément clé de cette étude réside dans la conception du test, qui vise non seulement à évaluer les performances de l'IA, mais aussi à mettre en lumière les limites des modèles d'IA en matière d'acquisition de connaissances. Les chercheurs soulignent que les utilisateurs doivent considérer ces modèles comme des outils de traitement de l'information et non comme des sources de connaissances entièrement fiables. Pour obtenir des réponses plus précises, il est préférable de fournir à l'IA des données fiables, plutôt que de se fier uniquement à ses connaissances intégrées.

image.png

Il est important de noter que les modèles d'IA surestiment souvent leurs propres capacités. Les chercheurs ont constaté que lorsque ces modèles sont invités à évaluer la confiance qu'ils accordent à leurs réponses, ils attribuent généralement des scores de précision exagérés. Lors de tests répétés avec les mêmes questions, même si le modèle fournit la même réponse à plusieurs reprises, son taux de réussite réel reste inférieur à son auto-évaluation de la précision. Cela correspond aux critiques externes concernant les réponses souvent absurdes mais affichant une grande confiance de la part des modèles linguistiques.

Les chercheurs estiment qu'il existe un écart manifeste en termes de précision factuelle dans les systèmes d'IA actuels, et que des améliorations sont nécessaires. Ils soulèvent également une question ouverte : les performances de l'IA dans la réponse à des questions factuelles courtes permettent-elles de prédire ses performances dans le traitement de réponses plus longues et plus complexes ? Pour soutenir le développement de modèles linguistiques plus fiables, OpenAI a publié les données du benchmark SimpleQA sur Github.

Points clés :

📊 L'étude d'OpenAI montre que les modèles linguistiques les plus avancés affichent un faible taux de réussite pour répondre à des questions factuelles, le taux le plus élevé étant de seulement 42,7 %.  

🤖 Ces modèles d'IA surestiment souvent leurs capacités, et leurs scores de confiance sont généralement exagérés.  

🔍 OpenAI a rendu public le benchmark SimpleQA afin de contribuer à la recherche sur des modèles linguistiques plus fiables.