新AI方法DELTA：10倍速度精确追踪单镜头视频中的每个像素

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Nov 6, 2024

408

在视频处理领域，如何从单镜头视频中高效追踪三维运动一直是一项难题，尤其是在需要对长序列进行像素级精确追踪时。传统方法面临多重挑战，往往只能跟踪少量关键点，无法实现完整场景的细致理解。

而且，现有技术的计算需求较高，难以在处理长视频时保持效率。同时，长时间的跟踪也会受到相机移动和物体遮挡等问题的影响，导致跟踪失误或错误的产生。

当前，视频序列运动估计的方法各有优缺点。光流技术提供了密集的像素追踪，但在复杂场景中，尤其是处理长序列时表现出韧性不足。

场景流则是对光流的扩展，通过 RGB-D 数据或点云来估计密集的三维运动，但在长序列中仍然难以高效应用。点跟踪方法虽然能够捕捉运动轨迹，并结合了空间和时间注意力以实现更平滑的跟踪，但由于计算成本较高，依然难以实现密集监测。再者，基于重建的跟踪方法利用变形场来估计运动，但在实时应用中实用性不强。

近日，来自马萨诸塞大学阿默斯特分校与 MIT-IBM 沃森人工智能实验室以及 Snap Inc. 的研究团队提出了 DELTA（Dense Efficient Long-range3D Tracking for Any video），这是一种专为高效追踪三维空间中每个像素而设计的方法。DELTA 通过低分辨率跟踪开始，采用时空注意力机制，并应用基于注意力的上采样器以实现高分辨率的准确性。其关键创新包括用于清晰运动边界的上采样器、高效的空间注意力架构以及增强跟踪性能的对数深度表示。

DELTA 在 CVO 和 Kubric3D 数据集上取得了先进的效果，在平均 Jaccard（AJ）和三维平均位置差(APD3D)等指标上提升超过10%，在 TAP-Vid3D 和 LSFOdyssey 等三维点跟踪基准中也表现出色。与现有方法不同，DELTA 在规模上实现了密集三维跟踪，运行速度比以往方法快8倍以上，同时保持了业界领先的准确性。

通过实验表明，DELTA 在三维跟踪任务中表现优异，速度和准确度均超过了以往方法。DELTA 在 Kubric 数据集上训练，包含超过5600个视频，其损失函数结合了2D 坐标、深度和可见性损失。

在基准测试中，DELTA 在长距离2D 跟踪和密集3D 跟踪上分别在 CVO 和 Kubric3D 中获得了最高分，任务完成速度远快于其他方法。DELTA 的设计选择，如对数深度表示、空间注意力和基于注意力的上采样器，显著提高了其在各种跟踪场景下的准确性和效率。

DELTA 是一种高效的方法，能够在视频帧中追踪每个像素，在密集 D 和3D 跟踪中取得了准确性和更快的运行时间。该方法在长时间遮挡的点上可能会面临挑战，最佳表现出现在帧数不超过数百的短视频中。DELTA 的三维跟踪准确性依赖于所使用的单目深度估计的精度和时域稳定性。预计单目深度估计的研究进展将进一步提升该方法的性能。

项目入口:https://snap-research.github.io/DELTA/

划重点:
🌟 DELTA 是一种全新方法，专为高效追踪单镜头视频中的每个像素而设计。
⚡ DELTA 在 CVO 和 Kubric3D 数据集上取得领先结果，速度比传统方法快8倍。
🔍 该方法在长时间遮挡点上可能存在挑战，但对短视频表现优异。

AI日报：MiniMax 发布 Music 2.6；扣子2.5重磅升级；AI人格测试产品SBTI走红网络

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://app.aibase.com/zh1、AI人格测试产品SBTI走红网络:主打抽象标签与AI合成技术AI人格测试产品SBTI凭借其荒诞的“抽象标签”与解构式表达迅速走红网络，其核心在于利用AI合成技术进行内容生成非严谨的心理学量表。腾讯旗下的姚顺雨团队也将发布混元大模型，两大国产AI巨头将在基座模型能力上展开竞争。

谷歌推出Gemini Notebooks功能:打通NotebookLM并上线个人知识库

谷歌推出Gemini“Notebooks”功能，打造个人知识库，帮助用户高效处理复杂项目。该功能打通了Gemini与NotebookLM的数据壁垒，构建闭环AI工作流。用户可在集成空间集中管理聊天记录、文档和PDF，导入历史对话并通过自定义指令引导Gemini进行智能分析。

从平面修图到空间重塑：京东开源图像模型JoyAI-Image-Edit重新定义AI编辑

京东探索研究院开源JoyAI-Image-Edit模型，实现AI修图从平面处理到三维空间建模的突破。该模型具备“空间智能”，能理解物理空间规律，支持相机感知和物体位移等三维建模，开发者可直接调用代码进行场景几何保持的图像编辑。

AI日报：AI视频神秘黑马Happy Horse亮相；爱诗科技 PixVerse C1 发布；360 打造“虾书”APP

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://app.aibase.com/zh1、超越Seedance2.0！8、智谱发布GLM-5.1:SWE-bench评分全球领跑，模型单价上调10%智谱发布全新大模型GLM-5.1，在SWE-benchPro基准测试中表现优异，同时在价格上实现与国际顶尖厂商的对齐，标志着行业竞争重心转向性能溢价。

AI新闻资讯

最新AI日报

AI 商用·开源产品库

AI 产品排行榜

AI产品提交

AI工具导航

GEO品牌监测平台

GEO品牌AI能见度体检

GEO排名查询工具

GEO推广链接检测

GEO排名优化系统

GEO 大模型推荐优化

MCP服务端

MCP客户端

MCP教程与实践

MCP排行榜

MCP服务提交

MCP实验场

MCP服务调试器

大模型API聚合平台

模型库

模型供应商

大模型排行榜

大模型选型对比

大模型费用计算器

大模型竞技场

模型个人电脑配置检测器

模型部署服务器配置计算器

新AI方法DELTA：10倍速度精确追踪单镜头视频中的每个像素

AIbase基地

本文来自AIbase日报

相关AI新闻推荐

AI日报：MiniMax 发布 Music 2.6；扣子2.5重磅升级；AI人格测试产品SBTI走红网络

阿里匿名模型 HappyHorse 横扫全球榜单，视频生成进入“高分时代”

阿里ATH事业群HappyHorse模型登顶AI视频榜，Elo积分力压Seedance2.0

AI人格测试产品SBTI走红网络:主打抽象标签与AI合成技术

谷歌推出Gemini Notebooks功能:打通NotebookLM并上线个人知识库

​谷歌DeepMind CEO称正以初创公司模式重回技术巅峰

未来三年大洗牌：波士顿咨询预测超半数美国岗位将被AI重塑

流媒体搜索新姿势：Tubi 成为首家接入 ChatGPT 应用的视频平台

从平面修图到空间重塑：京东开源图像模型JoyAI-Image-Edit重新定义AI编辑

AI日报：AI视频神秘黑马Happy Horse亮相；爱诗科技 PixVerse C1 发布；360 打造“虾书”APP

相关AI新闻推荐

AI日报：MiniMax 发布 Music 2.6；扣子2.5重磅升级；AI人格测试产品SBTI走红网络

阿里匿名模型 HappyHorse 横扫全球榜单，视频生成进入“高分时代”

阿里ATH事业群HappyHorse模型登顶AI视频榜，Elo积分力压Seedance2.0

AI人格测试产品SBTI走红网络:主打抽象标签与AI合成技术

谷歌推出Gemini Notebooks功能:打通NotebookLM并上线个人知识库

​谷歌DeepMind CEO称正以初创公司模式重回技术巅峰

未来三年大洗牌：波士顿咨询预测超半数美国岗位将被AI重塑

流媒体搜索新姿势：Tubi 成为首家接入 ChatGPT 应用的视频平台

从平面修图到空间重塑：京东开源图像模型JoyAI-Image-Edit重新定义AI编辑

AI日报：AI视频神秘黑马Happy Horse亮相；爱诗科技 PixVerse C1 发布；360 打造“虾书”APP

谷歌DeepMind CEO称正以初创公司模式重回技术巅峰

谷歌DeepMind CEO称正以初创公司模式重回技术巅峰