PARTNR

多智能体任务规划与推理的基准测试

普通产品其他多智能体自然语言处理
PARTNR是由Meta FAIR发布的一个大规模基准测试,包含100,000个自然语言任务,旨在研究多智能体推理和规划。PARTNR利用大型语言模型(LLMs)生成任务,并通过模拟循环来减少错误。它还支持与真实人类伙伴的AI代理评估,通过人类在环基础设施进行。PARTNR揭示了现有基于LLM的规划器在任务协调、跟踪和从错误中恢复方面的显著局限性,人类能解决93%的任务,而LLMs仅能解决30%。
打开网站

PARTNR 最新流量情况

月总访问量

11833

跳出率

44.03%

平均页面访问数

2.4

平均访问时长

00:01:15

PARTNR 访问量趋势

PARTNR 访问地理位置分布

PARTNR 流量来源

PARTNR 替代品