李飞飞团队前瞻性研究多模态AI模型初显空间智能

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年12月23号 14:49

242

有“AI教母”之称的斯坦福大学教授李飞飞及其团队近日发布了一项关于多模态大模型“空间智能”的研究，揭示这些模型在记忆和回忆空间方面已经具备初步能力，并展现出形成局部世界模型的潜力。

研究团队开发了用于评估视觉空间智能能力的工具——VSI-Bench，其中包含超过5000个基于288个真实视频的高质量问答对。测试视频涵盖居住空间、专业场所及工业场景，涉及多个地理区域。

研究结果显示，尽管多模态模型的总体表现尚低于人类，但在某些任务上已达到或接近人类水平。例如，Gemini-1.5Pro在绝对距离和房间大小估计等任务中表现突出，部分开源模型如LLaVA系列亦取得了竞争性结果。

研究还指出，使用认知地图辅助空间推理可显著提升模型在空间任务上的表现，其准确率提升达10个百分点。这表明明确生成认知地图有助于突破模型在空间理解上的瓶颈。

李飞飞表示，空间智能是AI理解物理世界的关键能力，对实现通用人工智能（AGI）至关重要。她认为，空间智能将成为AI领域的下一个前沿技术方向，甚至有望在2025年取得重要突破。

今年9月，李飞飞创办的公司World Labs宣布正式启动，专注于开发具备空间智能的AI模型。这家公司已获得包括英伟达、a16z、Adobe等知名机构的投资，目前估值超过10亿美元。

这一研究及其应用，标志着AI技术从二维信息处理向三维空间感知的关键进步，未来有望广泛应用于导航、机器人交互、增强现实等领域，为人工智能的进一步发展开辟全新道路。

效果最佳！阶跃星辰开源Step-Video-T2V 视频生成模型

今日，阶跃星辰与吉利汽车集团宣布，联合开源两款阶跃Step系列多模态大模型——Step-Video-T2V视频生成模型和Step-Audio语音模型。其中，阶跃Step-Video-T2V视频生成模型在参数量和性能上均处于全球领先水平。该模型拥有300亿参数量，能够直接生成204帧、540P分辨率的高质量视频，确保生成内容信息密度高、一致性强。评测结果显示，Step-Video-T2V在指令遵循、运动平滑性、物理合理性、美感度等方面均表现出色，显著超越市面上既有的最佳开源视频模型。

昆仑万维发布Matrix-Zero世界模型：国内首创3D场景与可交互视频生成

昆仑万维今日宣布正式推出其Matrix-Zero世界模型，成为国内首家同时具备3D场景生成和可交互视频生成能力的人工智能企业，标志着其在空间智能领域迈出了重要一步。Matrix-Zero的核心亮点在于其强大的3D场景生成功能。该功能可以将用户输入的图片转化为具有全局一致性、可自由探索的真实3D场景。这一突破性技术具备以下几个关键特性:全局一致性: Matrix-Zero生成的3D场景具有高度的全局一致性。例如，输入一张“城堡花园一角”的图片，模型可以生成一个360度环视后场景保持不变的3D环境，

昆仑万维发布Matrix-Zero世界模型支持3D场景、可交互视频生成

2025年2月14日，昆仑万维集团正式推出Matrix-Zero世界模型，标志着中国在空间智能领域迈出了重要一步。Matrix-Zero包含两款子模型:3D场景生成大模型和可交互视频生成大模型，旨在通过AI技术重塑数字内容创作模式，推动影视制作、游戏开发、具身智能等行业的创新发展。

当虹科技的BlackEye大模型与DeepSeek深度融合

近日，当虹科技宣布其 BlackEye 多模态视听大模型成功完成与 DeepSeek-R1和 DeepSeek Janus Pro 的深度融合。这一里程碑式的进展标志着当虹科技在视听传媒、工业与卫星、车载智能座舱等多个行业的应用潜力将得到进一步释放。随着科技的迅猛发展，多模态大模型正逐渐成为推动各行业创新的重要力量。通过将 DeepSeek 的技术与 BlackEye 大模型结合，当虹科技实现了对多行业场景的精准调优训练。这不仅使得模型的训练成本大幅降低，还能提供更加优质的用户体验。例如，在视听传媒领域，相关企

AI新闻资讯

李飞飞团队前瞻性研究 多模态AI模型初显空间智能