昆仑万维发布Matrix-Zero世界模型:国内首创3D场景与可交互视频生成

2025年2月14日,昆仑万维集团正式推出Matrix-Zero世界模型,标志着中国在空间智能领域迈出了重要一步。Matrix-Zero包含两款子模型:3D场景生成大模型和可交互视频生成大模型,旨在通过AI技术重塑数字内容创作模式,推动影视制作、游戏开发、具身智能等行业的创新发展。
长期以来,如何仅凭单张图像高效生成高质量、广阔视角的3D场景一直是研究人员面临的挑战。传统方法往往依赖多视角数据,或需要耗时的逐场景优化,并且在背景质量和未见区域的重建上存在不足。现有技术在处理单视图3D场景生成时,常因信息不足而导致遮挡区域的错误或扭曲,背景模糊,以及难以推断未见区域的几何结构。而基于回归的模型虽然可以前馈方式进行新视角合成,但它们在处理复杂场景时面临巨大的内存和计算压力,因此大多局限于物体级别的生成或窄视角场景。为了
有“AI教母”之称的斯坦福大学教授李飞飞及其团队近日发布了一项关于多模态大模型“空间智能”的研究,揭示这些模型在记忆和回忆空间方面已经具备初步能力,并展现出形成局部世界模型的潜力。研究团队开发了用于评估视觉空间智能能力的工具——VSI-Bench,其中包含超过5000个基于288个真实视频的高质量问答对。测试视频涵盖居住空间、专业场所及工业场景,涉及多个地理区域。研究结果显示,尽管多模态模型的总体表现尚低于人类,但在某些任务上已达到或接近人类水平。例如,
李飞飞的初创公司 World Labs 宣布与 Google Cloud 达成协议,选择 Google Cloud 作为其训练 AI 模型的主要计算提供商。这笔交易可能价值数亿美元。World Labs 将利用 Google Cloud 平台上的 GPU 服务器授权,为其大型多模态 AI 模型提供计算服务。该公司的 AI 模型被称为“空间智能”,能够处理、生成和与视频和地理空间数据交互。Google Cloud 表示,World Labs 的 AI 模型有巨大计算需求,需要高性能工具包和丰富的 AI 芯片供应。Google Cloud 的 AI 芯片、张量处理单元 (TPU) 和 Nvidia 的 GPU 将为 World Labs 提供所