有“AI教母”之称的斯坦福大学教授李飞飞及其团队近日发布了一项关于多模态大模型“空间智能”的研究,揭示这些模型在记忆和回忆空间方面已经具备初步能力,并展现出形成局部世界模型的潜力。
研究团队开发了用于评估视觉空间智能能力的工具——VSI-Bench,其中包含超过5000个基于288个真实视频的高质量问答对。测试视频涵盖居住空间、专业场所及工业场景,涉及多个地理区域。
研究结果显示,尽管多模态模型的总体表现尚低于人类,但在某些任务上已达到或接近人类水平。例如,Gemini-1.5Pro在绝对距离和房间大小估计等任务中表现突出,部分开源模型如LLaVA系列亦取得了竞争性结果。
研究还指出,使用认知地图辅助空间推理可显著提升模型在空间任务上的表现,其准确率提升达10个百分点。这表明明确生成认知地图有助于突破模型在空间理解上的瓶颈。
李飞飞表示,空间智能是AI理解物理世界的关键能力,对实现通用人工智能(AGI)至关重要。她认为,空间智能将成为AI领域的下一个前沿技术方向,甚至有望在2025年取得重要突破。
今年9月,李飞飞创办的公司World Labs宣布正式启动,专注于开发具备空间智能的AI模型。这家公司已获得包括英伟达、a16z、Adobe等知名机构的投资,目前估值超过10亿美元。
这一研究及其应用,标志着AI技术从二维信息处理向三维空间感知的关键进步,未来有望广泛应用于导航、机器人交互、增强现实等领域,为人工智能的进一步发展开辟全新道路。