Évaluation des Agents IA

Une équipe de l'Université Tsinghua et d'autres institutions a publié AgentBench, le premier benchmark systématique pour les systèmes d'agents IA. Ce benchmark a évalué 25 modèles de langage différents. Les résultats montrent que GPT-4 excelle dans des environnements complexes, et qu'il existe un avantage significatif des modèles de langage commerciaux de pointe par rapport aux modèles open source.

L'équipe de recherche recommande d'améliorer davantage les capacités d'apprentissage des modèles open source.