Le dernier modèle d'OpenAI, o3, a obtenu des résultats étonnants au benchmark ARC-AGI, atteignant un score impressionnant de 75,7 % en conditions de calcul standard, et même 87,5 % avec des ressources de calcul élevées. Cette réussite a surpris la communauté de la recherche en IA, mais ne prouve pas pour autant que l'intelligence artificielle générale (AGI) a été déchiffrée.

Le benchmark ARC-AGI est basé sur l'Abstract Reasoning Corpus (Corpus de Raisonnement Abstrait), un test conçu pour évaluer la capacité des systèmes d'IA à s'adapter à de nouvelles tâches et à démontrer une intelligence fluide. L'ARC comprend une série d'énigmes visuelles nécessitant la compréhension de concepts fondamentaux tels que les objets, les limites et les relations spatiales. Les humains résolvent facilement ces énigmes, tandis que les systèmes d'IA actuels rencontrent de nombreux défis. L'ARC est considéré comme l'un des benchmarks les plus exigeants pour l'évaluation de l'IA.

image.png

Les performances de o3 surpassent nettement celles des modèles précédents. Les modèles o1-preview et o1 ont obtenu un score maximal de 32 % à l'ARC-AGI. Avant cela, le chercheur Jeremy Berman, utilisant une méthode hybride combinant Claude3.5Sonnet et un algorithme génétique, avait atteint un score de 53 %. L'apparition de o3 est donc considérée comme un bond significatif dans les capacités de l'IA.

François Chollet, le créateur de l'ARC, a salué la transformation qualitative des capacités de l'IA démontrée par o3, soulignant son niveau sans précédent d'adaptation à de nouvelles tâches.

Malgré ses performances exceptionnelles, o3 a un coût de calcul élevé. En configuration basse, la résolution de chaque énigme coûte entre 17 et 20 dollars, nécessitant 33 millions de jetons ; en configuration haute, le coût de calcul est multiplié par 172, utilisant des milliards de jetons. Cependant, ces dépenses pourraient devenir plus raisonnables à mesure que le coût de l'inférence diminuera.

image.png

On ne dispose pas encore d'informations détaillées sur la manière dont o3 a réalisé cette percée. Certains scientifiques supposent que o3 utilise une méthode de synthèse de programmes, combinant la pensée en chaîne et des mécanismes de recherche. D'autres pensent qu'il s'agit simplement d'une extension de l'apprentissage par renforcement.

image.png

Bien que o3 ait réalisé des progrès importants sur ARC-AGI, Chollet souligne que ARC-AGI n'est pas un test d'AGI, et que o3 n'atteint pas encore les critères de l'AGI. Il affiche toujours de mauvaises performances sur certaines tâches simples, révélant des différences fondamentales avec l'intelligence humaine. De plus, o3 dépend toujours de la vérification externe pour son raisonnement, ce qui est loin de la capacité d'apprentissage autonome de l'AGI.

L'équipe de Chollet développe de nouveaux benchmarks plus exigeants pour tester les capacités de o3, prévoyant de faire baisser son score en dessous de 30 %. Il souligne que la véritable AGI impliquerait de rendre pratiquement impossible la création de tâches simples pour les humains mais difficiles pour l'IA.

Points clés :

🌟 o3 a obtenu un score élevé de 75,7 % au benchmark ARC-AGI, surpassant les modèles précédents.

💰 Le coût de résolution de chaque énigme par o3 atteint 17 à 20 dollars, avec une énorme consommation de ressources de calcul.

🚫 Malgré ses excellentes performances, les experts soulignent que o3 n'a pas encore atteint le niveau de l'AGI.