Une nouvelle étude révèle que même les modèles linguistiques IA les plus avancés, comme le dernier o1-preview d'OpenAI, peinent à réaliser des tâches de planification complexes.

Cette recherche, menée conjointement par des scientifiques de l'Université Fudan, de l'Université Carnegie Mellon, de ByteDance et de l'Université d'État de l'Ohio, a évalué les performances des modèles IA sur deux benchmarks de planification : BlocksWorld et TravelPlanner.

Intelligence artificielle, IA, cerveau humain, futur

Dans BlocksWorld, une tâche de planification classique, la précision de la plupart des modèles est inférieure à 50 %, seuls o1-mini (légèrement inférieur à 60 %) et o1-preview (près de 100 %) affichant des performances relativement bonnes.

Cependant, lorsque les chercheurs se sont tournés vers TravelPlanner, plus complexe, les performances de tous les modèles ont été décevantes. Le taux de réussite final de GPT-4o n'a été que de 7,8 %, tandis que celui de o1-preview a atteint 15,6 %. D'autres modèles comme GPT-4o-Mini, Llama3.1 et Qwen2 ont obtenu des scores compris entre 0 et 2,2 %. Bien que o1-preview ait montré une amélioration par rapport à GPT-4o, il reste encore loin des capacités de planification humaines.

Les chercheurs ont mis en évidence deux problèmes majeurs. Premièrement, les modèles ont du mal à intégrer les règles et les conditions, ce qui conduit à des plans souvent en violation des directives prédéfinies. Deuxièmement, avec l'augmentation du temps de planification, ils perdent progressivement de vue le problème initial. Pour mesurer l'influence des différentes composantes d'entrée sur le processus de planification, l'équipe de recherche a utilisé une méthode de « permutation feature importance ».

De plus, l'équipe de recherche a testé deux stratégies courantes pour améliorer les capacités de planification de l'IA. La première consiste à utiliser une mise à jour de la mémoire épisodique, en tirant des connaissances des tentatives de planification précédentes. Cela a amélioré la compréhension des contraintes, mais n'a pas conduit à une considération plus détaillée des règles individuelles. La seconde est une mise à jour de la mémoire paramétrique, améliorant l'influence de la tâche sur la planification par le biais d'un réglage fin. Cependant, à mesure que la planification s'allonge, le problème central — la diminution de l'influence — persiste. Ces deux méthodes, bien qu'apportant des améliorations, n'ont pas résolu complètement le problème fondamental.

Il est à noter que le code et les données associés à cette recherche seront bientôt disponibles publiquement sur GitHub.

Lien vers le code : https://github.com/hsaest/Agent-Planning-Analysis

Points clés :

🌍 L'étude montre que les modèles IA comme o1-preview d'OpenAI ont de faibles performances dans la planification de voyages complexes, le taux de réussite de GPT-4o étant seulement de 7,8 %.  

📉 La plupart des modèles obtiennent des résultats acceptables dans BlocksWorld, mais peinent à atteindre des résultats satisfaisants dans TravelPlanner.  

🧠 L'étude révèle que les modèles souffrent principalement d'une mauvaise intégration des règles et d'une perte de concentration au fil du temps.