PARTNR est un benchmark à grande échelle publié par Meta FAIR, comprenant 100 000 tâches en langage naturel visant à étudier le raisonnement et la planification multi-agents. PARTNR utilise des grands modèles linguistiques (LLM) pour générer des tâches et réduit les erreurs grâce à des boucles de simulation. Il prend également en charge l'évaluation des agents IA avec de vrais partenaires humains, via une infrastructure humaine dans la boucle. PARTNR révèle les limites significatives des planificateurs basés sur les LLM existants en matière de coordination des tâches, de suivi et de récupération d'erreurs : les humains résolvent 93 % des tâches, tandis que les LLM n'en résolvent que 30 %.