PARTNR
Benchmark de planification et de raisonnement multi-agents
Produit OrdinaireAutreIAMulti-agents
PARTNR est un benchmark à grande échelle publié par Meta FAIR, comprenant 100 000 tâches en langage naturel visant à étudier le raisonnement et la planification multi-agents. PARTNR utilise des grands modèles linguistiques (LLM) pour générer des tâches et réduit les erreurs grâce à des boucles de simulation. Il prend également en charge l'évaluation des agents IA avec de vrais partenaires humains, via une infrastructure humaine dans la boucle. PARTNR révèle les limites significatives des planificateurs basés sur les LLM existants en matière de coordination des tâches, de suivi et de récupération d'erreurs : les humains résolvent 93 % des tâches, tandis que les LLM n'en résolvent que 30 %.
PARTNR Dernière situation du trafic
Nombre total de visites mensuelles
23286
Taux de rebond
45.85%
Nombre moyen de pages par visite
2.0
Durée moyenne de la visite
00:01:59