清华团队领衔打造,首个 AI agent 系统性基准测试问世学生头条发布于AI新闻资讯 · 1 分钟阅读 · 2023年8月9号 14:076 清华大学等团队发布了首个 AI agent 系统性基准测试 AgentBench,对 25 个不同语言模型进行了全面评估。研究结果显示,GPT-4 在复杂环境中表现出色,顶级商业语言模型与开源模型存在显著优势。研究团队建议进一步提高开源模型的学习能力。AI 智能体基准测试清华大学© 版权所有 AIbase基地 2024, 点击查看来源出处 - https://www.aibase.com/zh/news/258