即使是顶尖AI模型也难以应对复杂旅行规划， OpenAI o1-preview也犯难

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年10月21号 9:17

135

最近，一项新研究显示，即便是先进的 AI 语言模型，比如 OpenAI 最新的 o1-preview，在复杂的规划任务中也显得力不从心。

这项研究是由复旦大学、卡内基梅隆大学、字节跳动和俄亥俄州立大学的科学家们共同进行的，测试了 AI 模型在两个规划基准上的表现:BlocksWorld 和 TravelPlanner。

人工智能,AI,人脑，未来

在 BlocksWorld 这个经典的规划任务中，大多数模型的准确率都低于50%，只有 o1-mini（略低于60%）和 o1-preview(接近100%)的表现相对较好。

然而，当研究者将目光转向更复杂的 TravelPlanner 时，所有模型的表现都令人失望。GPT-4o 的最终成功率仅为7.8%，而 o1-preview 则达到15.6%。其他一些模型如 GPT-4o-Mini、Llama3.1和 Qwen2的得分在0到2.2% 之间。虽然 o1-preview 相较于 GPT-4o 有了提升，但仍然远不及人类的规划能力。

研究者们指出了两个主要问题。首先，模型在整合规则和条件方面表现不佳，导致它们的计划经常违反预设的指导方针。其次，随着规划时间的增加，它们会逐渐失去对原始问题的关注。为了衡量不同输入成分对规划过程的影响，研究团队使用了一种 “排列特征重要性” 方法。

此外，研究团队还测试了两种常见的策略来提升 AI 的规划能力。第一种是使用情节记忆更新，从以往的规划尝试中获取知识，这虽然改善了对约束的理解，但并未导致对单个规则的更详细考虑。第二种是参数记忆更新，通过微调来增强任务对规划的影响，但随着计划的延长，核心问题 —— 影响力减弱 —— 依然存在。这两种方法虽然有所改进，但未能完全解决根本问题。

值得一提的是，研究相关的代码和数据将很快在 GitHub 上公开。

代码入口：https://github.com/hsaest/Agent-Planning-Analysis

划重点:
🌍 研究显示，OpenAI 的 o1-preview 等 AI 模型在复杂旅行规划上表现不佳，GPT-4o 成功率仅7.8%。
📉 大多数模型在 BlocksWorld 中表现尚可，但在 TravelPlanner 上均难以达到理想效果。
🧠 研究发现，模型主要存在对规则的整合不足及随时间推移而失去焦点的问题。

OpenAI 在全球扩展人工智能代理服务Operator，提升用户体验

OpenAI 于上周五宣布，正在为澳大利亚、巴西、加拿大、印度、日本、新加坡、韩国、英国等多个国家的 ChatGPT Pro 用户推出其最新的人工智能代理工具 ——Operator。这一工具的推出标志着 OpenAI 在人工智能领域的一次重要扩展，旨在帮助用户更高效地完成各种日常任务。Operator 自今年1月在美国首次推出以来，便备受关注，成为市场上少数能够代表用户执行任务的 “人工智能代理” 之一。它能够完成多种操作，包括订票、预订餐厅、提交费用报告，甚至在电子商务网站上购物。这些功能不仅

OpenAI宣布面向多个国家推出AI代理 Operator

OpenAI 于周五宣布，将在包括澳大利亚、巴西、加拿大、印度、日本、新加坡、韩国和英国等多个国家，为 ChatGPT Pro 用户推出一款名为 “Operator” 的人工智能代理工具。此工具旨在帮助用户更高效地完成各类任务，包括订票、预订餐厅、提交费用报告和网上购物等。“Operator” 最初于今年1月在美国推出，作为市场上几款 “人工智能代理” 工具之一，OpenAI 希望通过这一产品，为用户提供更便捷的服务。需要注意的是，这一工具目前仅对每月付费200美元的 ChatGPT Pro 用户开放，用户可以通过

微软备战OpenAI的GPT-5模型，预计即将发布GPT-4.5

近日，有消息人士透露，微软正在积极准备即将发布的 OpenAI 新模型 ——GPT-4.5及 GPT-5。根据 OpenAI 首席执行官山姆・阿特曼的说法，GPT-4.5将在数周内正式推出，微软则预计最早将在下周托管这一新 AI 模型。GPT-4.5代号 “猎户座”，是 OpenAI 的下一代模型，并且是公司最后一个非链式思维（non-chain-of-thought）模型。业内人士指出，GPT-4.5的能力有望大幅超越其前任 GPT-4。图源备注：图片由AI生成，图片授权服务商Midjourney不过，眼下的焦点不仅仅停留在 GPT-4.5，微软也在期待 GPT-5的到来。根据消

OpenAI Operator工具向多国Pro用户推出欧洲地区推广仍在进行

北京时间，2025 年 2 月 21日讯：OpenAI 今日宣布，其人工智能工具 Operator 已正式向澳大利亚、巴西、加拿大、印度、日本、新加坡、韩国、英国以及 ChatGPT 可用的多数地区的 Pro 用户推出。这一消息通过 X 平台发布，标志着 Operator 的全球化推广迈出重要一步。然而，欧盟、瑞士、挪威、列支敦士登和冰岛的推广工作仍在进行中，具体进展有待后续更新。Operator 扩展至多国Operator 是 OpenAI 开发的一款 AI 代理工具，能够通过视觉界面控制浏览器，自主完成订票、购物等网络任务。该工具最初于

AI新闻资讯

​即使是顶尖AI模型也难以应对复杂旅行规划， OpenAI o1-preview也犯难