PARTNR
多智能体任务规划与推理的基准测试
普通产品其他多智能体自然语言处理
PARTNR是由Meta FAIR发布的一个大规模基准测试,包含100,000个自然语言任务,旨在研究多智能体推理和规划。PARTNR利用大型语言模型(LLMs)生成任务,并通过模拟循环来减少错误。它还支持与真实人类伙伴的AI代理评估,通过人类在环基础设施进行。PARTNR揭示了现有基于LLM的规划器在任务协调、跟踪和从错误中恢复方面的显著局限性,人类能解决93%的任务,而LLMs仅能解决30%。
PARTNR 最新流量情况
月总访问量
12149
跳出率
49.74%
平均页面访问数
1.7
平均访问时长
00:00:48