近日,Meta 的 AI 首席科学家 Yann LeCun 领导的一项研究揭示了人工智能如何通过观看视频来培养基本的物理学理解。这项研究由 Meta FAIR、巴黎大学及 EHESS 的科学家们共同完成,显示出 AI 系统能够在没有预设规则的情况下,通过自我监督学习获得直观的物理知识。

QQ_1739931962266.png

研究团队采用了一种名为视频联合嵌入预测架构(V-JEPA)的新方法,与 OpenAI 的 Sora 等生成型 AI 模型相比,V-JEPA 的工作原理更接近人脑的信息处理方式。V-JEPA 并不追求生成完美的像素预测,而是专注于在一个抽象的表示空间中进行预测。通过这种方式,AI 系统能够学习到基本的物理概念。

研究中,团队借用了来自发展心理学的 “期望违反” 评估方法,该方法最初用于测试婴儿的物理理解能力。研究者展示给 AI 两个相似的场景 —— 一个是物理上可能的,另一个是物理上不可能的(例如,一只球穿过墙壁),通过测量对这些物理违背现象的反应,可以评估 AI 的物理理解能力。

V-JEPA 在三个数据集上进行了测试:IntPhys(基本物理概念)、GRASP(复杂交互)和 InfLevel(现实环境)。结果显示,V-JEPA 在物体恒常性、连续性和形状一致性方面表现尤为出色,而诸如 Gemini1.5Pro 和 Qwen2-VL-72B 等大型多模态语言模型的表现几乎与随机猜测相当。

V-JEPA 学习的效率也引人注目,该系统只需观看128小时的视频,就能够掌握基本的物理概念。而且,连115百万参数的小型模型也展现出强劲的效果。研究表明,V-JEPA 能够有效识别运动模式,并以高准确率识别物理上不合理的事件,这为 AI 真正理解世界的未来奠定了基础。

这项研究挑战了许多 AI 研究中的一个基本假设,即系统需要预设的 “核心知识” 以理解物理法则。V-JEPA 的发现表明,观察学习能够帮助 AI 获得这方面的知识,类似于婴儿、灵长类动物甚至年轻鸟类理解物理的过程。研究符合 Meta 对 JEPA 架构的长期探索目标,旨在创建全面的世界模型,使自主 AI 系统能够更深入地理解其环境。

划重点:  

🧠 研究显示 AI 通过视频学习物理知识,无需预设规则。  

📊 V-JEPA 在理解物理方面优于大型语言模型,表现出更强的学习能力。  

🌍 Meta 推动新的 AI 发展方向,旨在创建更全面的环境理解模型。