《解码器》的研究团队开发了一个名为 AgentBench 的基准测试,用于衡量大语言模型在辅助任务中的能力。通过测试 25 个语言模型,他们发现 GPT-4 在综合得分和各个领域中表现最佳。该研究团队还提供了工具包、数据集和基准测试环境,供研究社区使用。这项研究的结果对于进一步评估其他商业和开源模型的性能非常有价值。