Une équipe de Tsinghua lance le premier benchmark systématique pour les agents IA

学生头条

Publié leActualités IA · 1 minutes de lecture · Aug 9, 2023

Évaluation des Agents IA

Une équipe de l'Université Tsinghua et d'autres institutions a publié AgentBench, le premier benchmark systématique pour les systèmes d'agents IA. Ce benchmark a évalué 25 modèles de langage différents. Les résultats montrent que GPT-4 excelle dans des environnements complexes, et qu'il existe un avantage significatif des modèles de langage commerciaux de pointe par rapport aux modèles open source.

L'équipe de recherche recommande d'améliorer davantage les capacités d'apprentissage des modèles open source.

OpenAI lance SWE-Lancer : une nouvelle référence pour évaluer les performances des modèles sur les tâches réelles de freelancing en ingénierie logicielle

Dans le domaine de l'ingénierie logicielle, les méthodes traditionnelles de benchmark sont dépassées face à l'évolution des défis. Le travail de freelance en ingénierie logicielle est complexe et varié, allant bien au-delà de tâches de codage isolées. Les ingénieurs freelances doivent gérer des bases de code entières, intégrer divers systèmes et répondre à des exigences client complexes. Les méthodes d'évaluation traditionnelles, souvent axées sur les tests unitaires, ne reflètent pas pleinement les performances full-stack et l'impact économique réel des solutions. Il est donc crucial de développer des méthodes d'évaluation plus réalistes. C'est pourquoi OpenAI a lancé SWE-Lan

Record battu ! Le nouveau modèle o3 d'OpenAI fait sensation sur le benchmark ARC-AGI

Le dernier modèle d'OpenAI, o3, a obtenu des résultats étonnants sur le benchmark ARC-AGI, atteignant un score impressionnant de 75,7 % dans des conditions de calcul standard et même 87,5 % dans une version à calcul intensif. Cette performance a surpris la communauté de la recherche en IA, bien qu'elle ne prouve pas que l'intelligence artificielle générale (AGI) ait été résolue. Le benchmark ARC-AGI est basé sur l'Abstract Reasoning Corpus, un test conçu pour évaluer la capacité des systèmes d'IA à s'adapter à de nouvelles tâches.

LongBench v2 : un nouveau benchmark pour l'évaluation des modèles de langage de grande taille (LLM) sur les longs textes, développé par l'Institut d'Intelligence Artificielle de Pékin (BAAI) et Tencent

Lors d'une conférence de presse le 19 décembre 2024, l'Institut d'Intelligence Artificielle de Pékin (BAAI) et Tencent ont annoncé le lancement de LongBench v2, un benchmark spécialement conçu pour évaluer la capacité de compréhension et de raisonnement en profondeur des modèles de langage de grande taille (LLM) sur des tâches multitâches impliquant de longs textes dans des contextes réels. Cette plateforme vise à stimuler les progrès des modèles de longs textes en matière de compréhension et de raisonnement, répondant ainsi aux défis actuels posés par les LLM traitant de longs textes dans les applications.

Alibaba lance PROCESSBENCH, un nouveau benchmark IA pour évaluer la capacité de détection d'erreurs dans le raisonnement mathématique

Les chercheurs de l'équipe Qwen d'Alibaba ont récemment lancé un nouveau benchmark appelé "PROCESSBENCH", conçu pour mesurer la capacité des modèles linguistiques à identifier les erreurs de procédure dans le raisonnement mathématique. Alors que les modèles linguistiques progressent de manière significative dans les tâches de raisonnement complexes, les chercheurs de ce domaine ont constaté que, malgré d'excellentes performances, ces modèles rencontrent encore des difficultés avec certains problèmes ardus. Par conséquent, le développement d'une méthode de supervision efficace est particulièrement important. Actuellement, les benchmarks d'évaluation pour les modèles linguistiques présentent certaines lacunes.