近日,字节跳动研究院和清华大学的研究人员联合发布了一项新研究,指出目前的 AI 视频生成模型,比如 OpenAI 的 Sora,虽然能创造出令人惊叹的视觉效果,但在理解基本物理规律方面却存在重大缺陷。这项研究引发了人们对 AI 在模拟现实时能力的广泛讨论。

研究团队对 AI 视频生成模型进行了测试,设定了三种不同的场景,分别是已知模式下的预测、未知模式下的预测,以及熟悉元素的新组合。他们的目标是看看这些模型是否真的学习了物理规律,还是仅仅依赖于训练中的表面特征。

通过测试,研究人员发现这些 AI 模型并没有学习到普遍适用的规则。相反,它们在生成视频时,主要依赖于颜色、大小、速度和形状等表面特征,并且遵循了一种严格的优先顺序:颜色优先,其次是大小、速度和形状。

在熟悉的场景下,这些模型的表现几乎完美,但一旦遇到未知情况,它们就显得无能为力。研究中的一项测试,展示了 AI 模型在处理物体运动时的局限性。例如,当模型训练时使用快速移动的球体来回运动,而在测试时却给它们提供慢速球体,模型竟然在几帧后显示球体突然改变了方向。这一现象在相关视频中也有清晰的体现。

研究人员指出,简单地扩大模型规模或增加训练数据并不能解决问题。尽管更大的模型在熟悉的模式和组合下表现更好,但它们依然无法理解基本的物理规律或处理超出训练范围的场景。研究合著者康炳毅提到:“如果在特定场景下数据覆盖足够好,也许能形成一个过拟合的世界模型。” 但这种模型并不符合真正世界模型的定义,因为真正的世界模型应该能够超越训练数据进行推广。

合著者 Bingyi Kang 在 X 上演示了这一限制,他解释说,当他们用快速移动的球从左到右和向后移动来训练模型,然后用缓慢移动的球进行测试时,模型显示球在仅仅几帧后就突然改变了方向(你可以在1分55秒的视频中看到它)。

这项研究结果对 OpenAI 的 Sora 计划形成了挑战。OpenAI 曾表示,Sora 有望通过不断扩展而发展成为真正的世界模型,甚至声称它已经对物理交互和三维几何有了基本理解。但研究人员指出,单靠简单的规模扩大并不足以让视频生成模型发现基本的物理规律。

Meta 的 AI 负责人 Yann LeCun 对此也表达了怀疑,认为通过生成像素来预测世界的做法是 “浪费时间且注定失败”。尽管如此,很多人仍期待 OpenAI 能在2024年2月中旬如期发布 Sora,展现其视频生成的潜力。

划重点:

🌟 研究发现 AI 视频生成模型在理解物理规律方面存在重大缺陷,依赖于训练数据的表面特征。  

⚡ 扩大模型规模并不能解决问题,这些模型在未知场景中表现不佳。  

🎥 OpenAI 的 Sora 计划面临挑战,单靠规模扩大无法实现真正的世界模型。