字节联合清华研究：Sora等这类AI视频模型无法理解基本物理规律

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Nov 18, 2024

540

近日，字节跳动研究院和清华大学的研究人员联合发布了一项新研究，指出目前的 AI 视频生成模型，比如 OpenAI 的 Sora，虽然能创造出令人惊叹的视觉效果，但在理解基本物理规律方面却存在重大缺陷。这项研究引发了人们对 AI 在模拟现实时能力的广泛讨论。

研究团队对 AI 视频生成模型进行了测试，设定了三种不同的场景，分别是已知模式下的预测、未知模式下的预测，以及熟悉元素的新组合。他们的目标是看看这些模型是否真的学习了物理规律，还是仅仅依赖于训练中的表面特征。

通过测试，研究人员发现这些 AI 模型并没有学习到普遍适用的规则。相反，它们在生成视频时，主要依赖于颜色、大小、速度和形状等表面特征，并且遵循了一种严格的优先顺序:颜色优先，其次是大小、速度和形状。

在熟悉的场景下，这些模型的表现几乎完美，但一旦遇到未知情况，它们就显得无能为力。研究中的一项测试，展示了 AI 模型在处理物体运动时的局限性。例如，当模型训练时使用快速移动的球体来回运动，而在测试时却给它们提供慢速球体，模型竟然在几帧后显示球体突然改变了方向。这一现象在相关视频中也有清晰的体现。

研究人员指出，简单地扩大模型规模或增加训练数据并不能解决问题。尽管更大的模型在熟悉的模式和组合下表现更好，但它们依然无法理解基本的物理规律或处理超出训练范围的场景。研究合著者康炳毅提到:“如果在特定场景下数据覆盖足够好，也许能形成一个过拟合的世界模型。” 但这种模型并不符合真正世界模型的定义，因为真正的世界模型应该能够超越训练数据进行推广。

合著者 Bingyi Kang 在 X 上演示了这一限制，他解释说，当他们用快速移动的球从左到右和向后移动来训练模型，然后用缓慢移动的球进行测试时，模型显示球在仅仅几帧后就突然改变了方向（你可以在1分55秒的视频中看到它）。

这项研究结果对 OpenAI 的 Sora 计划形成了挑战。OpenAI 曾表示，Sora 有望通过不断扩展而发展成为真正的世界模型，甚至声称它已经对物理交互和三维几何有了基本理解。但研究人员指出，单靠简单的规模扩大并不足以让视频生成模型发现基本的物理规律。

Meta 的 AI 负责人 Yann LeCun 对此也表达了怀疑，认为通过生成像素来预测世界的做法是 “浪费时间且注定失败”。尽管如此，很多人仍期待 OpenAI 能在2024年2月中旬如期发布 Sora，展现其视频生成的潜力。

划重点:
🌟 研究发现 AI 视频生成模型在理解物理规律方面存在重大缺陷，依赖于训练数据的表面特征。
⚡ 扩大模型规模并不能解决问题，这些模型在未知场景中表现不佳。
🎥 OpenAI 的 Sora 计划面临挑战，单靠规模扩大无法实现真正的世界模型。

斯坦福2026AI 报告:中美技术差距仅剩2.7%，中国在专利与机器人领域登顶

斯坦福大学《2026年AI指数报告》显示，全球AI技术进入全面普及期，中美顶尖技术差距降至历史最低。美国在顶级模型、高影响力专利及数据中心数量上保持优势，但中国已在多项核心指标上实现追赶，形成从“一枝独秀”到“交替领先”的竞争格局。

Claude Code正式推出 Routines：云端自动跑 Mac关了也不耽误干活

昨天(4 月 14 日)，Anthropic 在 Claude Code 里上线了一个新功能——Routines，目前以研究预览(research preview)形式开放。一句话概括:把提示词、代码仓库、连接器打成一个包，存下来，Claude 就能按时间表、API 调用或 GitHub 事件自己跑起来，全程在 Anthropic 自家云上执行，本地电脑可以直接关机。

AI日报：火山引擎Seedance2.0 API全面开放；阿里巴巴首款具身机器人曝光；Skywork AI发布实时视频生成系统Matrix-Game 3.0

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://app.aibase.com/zh1、火山引擎Seedance2.0系列API正式上线，开放全球SOTA级视频生成能力火山引擎Seedance2.0系列API服务的上线，为视频生成领域带来了全球SOTA级的能力，支持多种模态输入并提升了复杂场景下的可用率，同时建立了完善的合规体系，推动AI视频创作在多个领域的商业落地。该功能目前仅限于专业版用户，并且无法保存生成内容。