研究发现，GPT-4 在“现实世界的务实任务”中主导了其他LLM

THE DECODER

发布于AI新闻资讯 · 1 分钟阅读 · 2023年8月11号 9:48

《解码器》的研究团队开发了一个名为 AgentBench 的基准测试，用于衡量大语言模型在辅助任务中的能力。通过测试 25 个语言模型，他们发现 GPT-4 在综合得分和各个领域中表现最佳。该研究团队还提供了工具包、数据集和基准测试环境，供研究社区使用。这项研究的结果对于进一步评估其他商业和开源模型的性能非常有价值。

抖音副总裁否认AI团队大变阵：都是不实信息

李亮指出，一篇题为《字节AI团队大变阵》的文章中存在多处不实信息。文章中提及的技术副总裁杨震原即将退休、冯佳时将离职创业等说法，均为错误信源所致。此外，关于张一鸣拜访豌豆荚创始人王俊煜及上海模速空间创业公司的报道，同样与事实不符。

OpenAI 在全球扩展人工智能代理服务Operator，提升用户体验

OpenAI 于上周五宣布，正在为澳大利亚、巴西、加拿大、印度、日本、新加坡、韩国、英国等多个国家的 ChatGPT Pro 用户推出其最新的人工智能代理工具 ——Operator。这一工具的推出标志着 OpenAI 在人工智能领域的一次重要扩展，旨在帮助用户更高效地完成各种日常任务。Operator 自今年1月在美国首次推出以来，便备受关注，成为市场上少数能够代表用户执行任务的 “人工智能代理” 之一。它能够完成多种操作，包括订票、预订餐厅、提交费用报告，甚至在电子商务网站上购物。这些功能不仅

OpenAI宣布面向多个国家推出AI代理 Operator

OpenAI 于周五宣布，将在包括澳大利亚、巴西、加拿大、印度、日本、新加坡、韩国和英国等多个国家，为 ChatGPT Pro 用户推出一款名为 “Operator” 的人工智能代理工具。此工具旨在帮助用户更高效地完成各类任务，包括订票、预订餐厅、提交费用报告和网上购物等。“Operator” 最初于今年1月在美国推出，作为市场上几款 “人工智能代理” 工具之一，OpenAI 希望通过这一产品，为用户提供更便捷的服务。需要注意的是，这一工具目前仅对每月付费200美元的 ChatGPT Pro 用户开放，用户可以通过

AI新闻资讯

研究发现，GPT-4 在“现实世界的务实任务”中主导了其他LLM

THE DECODER

相关AI新闻推荐

马斯克： Grok 3 语音模式早期测试版已上线

抖音副总裁否认AI团队大变阵：都是不实信息

OpenAI 在全球扩展人工智能代理服务Operator，提升用户体验

OpenAI宣布面向多个国家推出AI代理 Operator