清华大学等团队发布了首个 AI agent 系统性基准测试 AgentBench,对 25 个不同语言模型进行了全面评估。研究结果显示,GPT-4 在复杂环境中表现出色,顶级商业语言模型与开源模型存在显著优势。研究团队建议进一步提高开源模型的学习能力。