Diffusion-Vas：追踪视频目标，可补全遮挡部分

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Dec 17, 2024

441

在视频分析领域，物体的持久性是人类理解物体即使在完全遮挡情况下依然存在的重要线索。然而，目前的物体分割方法大多只关注可见（模态）物体，而缺乏对无模态(可见 + 不可见)物体的处理。

针对这一问题，研究人员提出了一种基于扩散先验的两阶段方法Diffusion-Vas，旨在提升视频无模态分割和内容补全的效果，能追踪视频中的指定目标，然后利用扩散模型补全被遮挡的部分。

该方法的第一阶段涉及生成物体的无模态掩码。研究人员通过将可见掩码序列与伪深度图结合，来推断物体边界的遮挡情况。伪深度图是通过对 RGB 视频序列进行单目深度估计得到的。这一阶段的目标是确定物体在场景中可能被遮挡的部分，从而扩展物体的完整轮廓。

在第一阶段生成的无模态掩码基础上，第二阶段则负责对遮挡区域进行内容补全。研究团队利用模态 RGB 内容，运用条件生成模型对遮挡区域进行填补，最终生成完整的无模态 RGB 内容。整个过程采用了一个以3D UNet 为骨干网络的条件潜在扩散框架，确保了生成结果的高保真度。

为了验证其有效性，研究团队在四个数据集上对新方法进行了基准测试，结果表明，较之于多种先进的方法，其在物体被遮挡区域的无模态分割上提高了多达13% 的准确率。尤其是在处理复杂场景时，研究方法展示了出色的稳健性，能够有效应对强烈的相机运动和频繁的完全遮挡。

这一研究不仅提升了视频分析的精确度，也为理解物体在复杂场景中的存在性提供了新的视角。未来，该技术有望被应用于自动驾驶、监控视频分析等多个领域。

项目：https://diffusion-vas.github.io/

划重点:
🌟 研究提出了一种新方法，通过扩散先验实现视频中的无模态分割和内容补全。
🖼️ 方法分为两阶段，首先生成无模态掩码，然后进行遮挡区域的内容补全。
📊 在多项基准测试中，该方法显著提高了无模态分割的准确性，尤其在复杂场景下表现优异。

物体分割扩散模型视频分析 Diffusion-Vas

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

月之暗面Kimi K2 模型发布并开源擅长代码与 Agentic 任务

月之暗面公司正式发布了其最新力作——Kimi K2模型，并同步宣布开源。这款基于MoE架构的基础模型，凭借其强大的代码能力、卓越的通用Agent任务处理能力，一经发布便在AI领域引起了广泛关注。 Kimi K2模型总参数高达1T，激活参数为32B，在SWE Bench Verified、Tau2、AceBench等一系列基准性能测试中，均取得了开源模型中的顶尖成绩，充分展现了其在代码编写、Agent任务执行以及数学推理等方面的领先实力。

2025年7月12号 9:53

1.5k

腾讯混元Hunyuan-A13B模型API上线

近日，腾讯云官网正式上线了腾讯混元A13B模型的API服务，输入价格定为每百万Tokens0.5元，输出价格则为每百万Tokens2元，这一举措迅速在开发者社区中引发了热烈反响。作为业界首个13B级别的MoE（混合专家）开源混合推理模型，Hunyuan-A13B以其总参数80B、激活参数仅13B的精简设计，实现了与同等架构领先开源模型相媲美的效果，同时在推理速度上更胜一筹，性价比显著提升。这一创新不仅降低了开发者获取先进模型能力的门槛，更为AI应用的广泛普及奠定了坚实基础。

2025年7月11号 16:12

1.6k

AI日报：智谱上线PPT生成功能AI Slides；可灵 AI 发布可图2.1模型

【AI日报速览】1.智谱推出免费AI Slides，基于GLM模型快速生成专业PPT；2.可灵AI发布可图2.1，图像生成支持180种风格；3.NVIDIA推出DiffusionRenderer，实现视频转3D场景编辑；4.墨刀AI上线30秒生成可编辑原型功能；5.Higgsfield Soul ID用10张照片生成虚拟形象；6.谷歌开源GenAI Processors构建AI工作流；7.谷歌Veo3新增图转视频功能；8.Mistral AI发布专注代码生成的Devstral2507系列模型。

2025年7月11号 15:43

1.5k

微软 BioEmu 模型实现蛋白质模拟时间大幅缩短

微软发布革命性BioEmu模型，将蛋白质动态模拟时间从数年缩短至数小时。该模型基于AlphaFold2改进，采用序列编码器和扩散生成技术，能生成多样化蛋白质构象。通过200毫秒分子动力学数据训练，显著提升模拟精度。这一突破将极大加速药物研发和生物医学研究，已在《自然》期刊发表。

2025年7月11号 10:50

1.4k

NVIDIA 推出 DiffusionRenderer：全新 AI 模型实现视频到可编辑的逼真 3D 场景

NVIDIA推出DiffusionRenderer技术突破视频生成瓶颈，实现3D场景的可控编辑。该技术采用双神经渲染器架构：逆渲染器提取场景几何材质数据，前向渲染器结合光照生成逼真视频。通过15万合成视频和1万真实视频数据集训练，模型在光影效果和材质还原上表现优异。支持动态光照调整、材质修改和对象插入等操作，大幅提升创作自由度。这项技术标志着AI视频生成从单纯创作迈向可编辑的新阶段。

2025年7月11号 9:28

1.9k

城商行掀起大模型招标潮，百万级投入成行业新风口！

中小银行加速布局大模型技术，超10家城商行近期启动相关项目招标，投资规模普遍在200-600万元之间。这些银行主要聚焦应用层开发，旨在优化服务流程、提升运营效率。典型案例显示，广西北部湾银行等项目报价达数百万元。相比国有大行动辄上亿的投入，城商行更注重性价比和实际应用效果。业内报告指出，银行业大模型应用正从试点走向多场景落地，推动行业智能化转型。

2025年7月11号 9:18

600

谷歌Veo3新增图像转视频功能，七周内用户创作超4000万个视频

谷歌为Veo3AI视频生成器新增图像转视频功能，该功能已整合进Gemini应用和Flow工具，覆盖150多国。目前仅限AI Ultra/Pro用户使用，每日限3次创作。用户可上传图片并添加音频描述生成视频，支持下载分享。数据显示7周内用户已创建超4000万视频。所有生成视频均带有可见"Veo"水印和不可见SynthID数字水印，谷歌还提供专用检测工具识别AI内容。

2025年7月11号 9:17

1.1k

AI 大模型的人格化：Grok 4 与马斯克的“共情”？

埃隆·马斯克旗下xAI的Grok4模型陷入争议，测试显示该AI在回答敏感话题时优先引用马斯克本人观点，与其"追求真相"承诺相矛盾。虽然Grok4在技术测试中表现优异，但近期接连出现反犹言论等严重失误，加上明显的政治倾向性，给其商业推广蒙上阴影。目前xAI尚未公布模型训练细节，缺乏透明度加剧外界质疑。这些问题可能影响其300美元/月的订阅服务和API商业计划。

2025年7月11号 9:01

960

可灵 AI 发布可图2.1模型:图像生成能力大幅提升，支持180种风格

可灵AI推出新一代图像生成模型"可图2.1"，在指令理解、人像美感和电影质感等方面全面提升。新模型具备强大文字生成能力，支持180多种风格，7月17日前会员可免费体验。该模型能精准呈现复杂场景，如3D沙盘、海底火山爆发等宏大场面，在人像光影处理上尤为出色。可灵AI已发展为多模态创意平台，用户累计生成3.44亿张图片和1.68亿个视频，展现强大技术实力和市场影响力。

2025年7月11号 8:58

1.8k

可灵AI上线可图2.1模型，将面向所有会员用户免费开放7天

可灵AI推出可图2.1模型，在指令理解、人像美化、电影质感及180多种风格响应能力上全面升级，同时优化了文字生成效果。新模型将向所有会员免费开放7天，支持文生图、单图参考和多图参考等功能。

2025年7月10号 17:57

1.2k

AI开源&商用产品

AI产品提交

模型库

MCP服务端

MCP客户端

MCP服务调试

案例教程

AI热门资讯

今日AI热点

Diffusion-Vas：追踪视频目标，可补全遮挡部分

AIbase基地

本文来自AIbase日报

相关AI新闻推荐

月之暗面Kimi K2 模型发布并开源擅长代码与 Agentic 任务

腾讯混元Hunyuan-A13B模型API上线

AI日报：智谱上线PPT生成功能AI Slides；可灵 AI 发布可图2.1模型

微软 BioEmu 模型实现蛋白质模拟时间大幅缩短

NVIDIA 推出 DiffusionRenderer：全新 AI 模型实现视频到可编辑的逼真 3D 场景

城商行掀起大模型招标潮，百万级投入成行业新风口！

谷歌Veo3新增图像转视频功能，七周内用户创作超4000万个视频

AI 大模型的人格化：Grok 4 与马斯克的“共情”？

可灵 AI 发布可图2.1模型:图像生成能力大幅提升，支持180种风格

可灵AI上线可图2.1模型，将面向所有会员用户免费开放7天

AI开源&商用产品

AI产品提交

模型库

MCP服务端

MCP客户端

MCP服务调试

案例教程

AI热门资讯

今日AI热点

Diffusion-Vas：追踪视频目标，可补全遮挡部分

AIbase基地

本文来自AIbase日报

相关AI新闻推荐

月之暗面Kimi K2 模型发布并开源 擅长代码与 Agentic 任务

腾讯混元Hunyuan-A13B模型API上线

AI日报：智谱上线PPT生成功能AI Slides；可灵 AI 发布可图2.1模型

微软 BioEmu 模型实现蛋白质模拟时间大幅缩短

​NVIDIA 推出 DiffusionRenderer：全新 AI 模型实现视频到可编辑的逼真 3D 场景

城商行掀起大模型招标潮，百万级投入成行业新风口！

谷歌Veo3新增图像转视频功能，七周内用户创作超4000万个视频

AI 大模型的人格化：Grok 4 与马斯克的“共情”？

可灵 AI 发布可图2.1模型:图像生成能力大幅提升，支持180种风格

可灵AI上线可图2.1模型，将面向所有会员用户免费开放7天

月之暗面Kimi K2 模型发布并开源擅长代码与 Agentic 任务

NVIDIA 推出 DiffusionRenderer：全新 AI 模型实现视频到可编辑的逼真 3D 场景