近日,谷歌深度学习团队和多所大学的研究人员联合发布了一项名为 “MegaSaM” 的新系统,该系统能够从普通的动态视频中快速、准确地估计相机参数和深度图。这一技术的问世,将为我们在日常生活中录制的视频带来更多的可能性,特别是在动态场景的捕捉与分析方面。

image.png

传统的运动结构重建(Structure from Motion,SfM)和单目同步定位与地图构建(SLAM)技术,通常需要输入静态场景的视频,并且对视差的要求较高。面对动态场景,这些方法的表现往往不尽如人意,因为在缺乏静态背景的情况下,算法容易出现错误。尽管近年来一些基于神经网络的方法试图解决这一问题,但这些方法往往计算开销巨大,且在动态视频中,尤其是当摄像机运动不受控制或者视场未知时,稳定性欠佳。

MegaSaM 的出现,改变了这一局面。研究团队通过对深度视觉 SLAM 框架进行精心的修改,使其能够适应复杂的动态场景,尤其是在摄像机路径不受限制的情况下。经过一系列的实验,研究人员发现 MegaSaM 在相机姿态和深度估计方面,显著优于以往的相关技术,并且在运行时间上也表现出色,甚至可以与某些方法相媲美。

该系统的强大功能,使其能够处理几乎任何视频,包括那些在拍摄过程中可能存在剧烈运动或者场景动态的随意录像。MegaSaM 在约0.7帧每秒的速度下,处理源视频的结果,展现出其卓越的性能。研究团队还在他们的画廊中展示了更多处理结果,以证明其在实际应用中的有效性。

这一研究成果不仅为计算机视觉领域带来了新鲜血液,也为广大用户在日常生活中的视频处理提供了新的可能性,期待未来能够在更多场景中看到 MegaSaM 的身影。

项目入口:https://mega-sam.github.io/#demo

划重点:

🌟 MegaSaM 系统能够从普通动态视频中快速、准确地估计相机参数和深度图。  

⚙️ 该技术克服了传统方法在动态场景中的不足,适应复杂环境的实时处理。  

📈 实验结果显示,MegaSaM 在准确性和运行效率上均优于以往技术。