如今的人工智能模型是否真的能像人类一样记忆、思考、计划和推理呢?有些 AI 实验室似乎让人觉得我们离 “人类级 AI” 不远了,但 Meta 的首席 AI 科学家 Yann LeCun 却给了大家一记冷水。他认为,我们要想实现这一目标,可能还需要十年的努力,而这一切的关键在于 “世界模型”。

在今年年初,OpenAI 推出了一项新功能,声称它的 ChatGPT 可以 “记住” 与用户的对话。它最新一代的模型在生成输出时显示 “思考” 字样,甚至宣称这些模型能够进行 “复杂推理”。

机器人 人工智能 AI (3)

图源备注:图片由AI生成,图片授权服务商Midjourney

听起来似乎我们快要迎来 AGI(通用人工智能)的时代。然而,在最近一次的哈德逊论坛上,LeCun 却驳斥了那些乐观的声音,比如 xAI 创始人 Elon Musk 和谷歌 DeepMind 联合创始人 Shane Legg,他们认为人类级别的 AI 就在眼前。

LeCun 指出:“我们需要那些能理解世界的机器;具备记忆、直觉、常识,能像人类一样推理和规划的机器。” 他强调,尽管一些最热衷于 AI 发展的声音频频呼喊,当前的 AI 系统其实还远未达到这个水平。他甚至表示,真正的人类级 AI 可能要 “数年到数十年” 才能实现。

那问题出在哪儿呢?其实很简单:如今的大型语言模型(LLM)仅仅是通过预测下一个词汇(通常是几个字母或一个短词)来工作,而当前的图像或视频模型则是预测下一个像素。这就是说,语言模型只能在一维上进行预测,而图像 / 视频模型则在二维上进行。虽然这些模型在各自的领域中表现得相当优秀,但它们并不理解三维世界的复杂性。

正因如此,现代 AI 系统无法完成大多数人类能够轻松应对的简单任务。LeCun 提到,人类在十岁时就能学会收拾餐桌,而在十七岁时能学会驾驶,甚至只需几个小时的时间。但即使是当前最先进的 AI 系统,经过数千或数百万小时的数据训练,依然无法可靠地在现实世界中操作。

要实现更复杂的任务,LeCun 认为我们需要构建能够感知周围世界的三维模型,核心在于一种新的 AI 架构 —— 世界模型。他解释道:“世界模型是你对世界行为的心理模型。” 你可以想象一系列你可能采取的行动,而你的世界模型会让你预测这些行动对世界的影响。

例如,想象你看到了一个凌乱的卧室,想要把它弄干净。你可以很自然地想到,捡起所有的衣服并把它们放好就可以解决问题。你不需要尝试多种方法,也不需要先学会如何清理房间。你的大脑观察三维空间,直接制定出第一时间可以实现目标的行动计划。这种行动计划正是 AI 世界模型所承诺的 “秘密武器”。

世界模型的另一个好处是,它们能够处理比 LLM 更为庞大的数据。这也使得它们的计算需求变得更加复杂,这就是为什么各大云服务提供商正在争相与 AI 公司合作的原因。

如今,多个 AI 实验室都在追逐世界模型这个大概念,这个词迅速成为吸引风险投资的热门话题。一组享有盛誉的 AI 研究人员,包括 “AI 女神” Fei-Fei Li 和 Justin Johnson,刚刚为他们的初创公司 World Labs 筹集了2.3亿美元。她和她的团队坚信,世界模型将解锁更智能的 AI 系统。OpenAI 也将其尚未发布的 Sora 视频生成器描述为一种世界模型,但具体细节尚未披露。

LeCun 在2022年的一篇关于 “目标驱动 AI” 的论文中阐述了使用世界模型创建人类级 AI 的构想,尽管他指出这个概念已有60多年的历史。简而言之,世界模型通过一个世界的基本表示(例如,一个脏房间的视频)和记忆进行训练。然后,这个模型会根据这些信息预测世界的变化。接着,你给世界模型设定目标,包括你希望实现的世界的变化状态(比如将房间清理干净),并设置一些 “保护措施”,确保模型不会为了达成目标而危害人类(比如,清理房间时请不要伤到我)。最后,世界模型会找到一系列行动序列来达成这些目标。

Meta 的长期 AI 研究实验室 FAIR(基础 AI 研究)正在积极研究目标驱动 AI 和世界模型,LeCun 表示。FAIR 曾经为 Meta 的即将推出的产品进行 AI 研究,但 LeCun 说该实验室近年来已转向专注于长期 AI 研究,现在甚至不再使用 LLM。

虽然世界模型是个引人入胜的概念,但 LeCun 坦言我们在将这些系统转变为现实方面尚未取得太大进展。我们距离目标还有很多艰难的问题需要解决,他表示,“如果不说十年,这里的一切都可能需要数年才能运作。” 而他的老板马克・扎克伯格总是忍不住询问何时才能实现这一目标。