视频也能“PS”啦！谷歌DeepMind发布逆天AI模型电影级特效轻松get！

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Nov 28, 2024

748

还记得电影里那些酷炫的特效吗?物体凭空消失、场景瞬间变换，是不是让你大呼过瘾? 现在，谷歌DeepMind团队研发出了一款名为“Generative Omnimatte”的AI模型，让这些特效不再是电影的专属! 这款AI就像一位技艺高超的剪辑师，可以将视频分解成多个图层，每个图层包含一个完整的物体及其产生的阴影、倒影等效果。

传统的视频抠图技术通常依赖于绿幕拍摄或精确的深度信息，操作起来非常复杂。而这款AI模型则完全摆脱了这些限制，它不需要任何额外的信息，就能将视频中的人物、物体、背景完美分离，甚至可以“脑补”出被遮挡的部分，效果令人惊叹!

这款AI模型的核心是一个名为“Casper”的视频移除模型。它就像一个神奇的橡皮擦，可以精准地擦除视频中任何你指定的物体，连带着它的阴影、倒影也一并消失，而背景却完好无损。

更重要的是，它还能根据用户的需求，将物体与背景重新组合，实现各种创意效果，例如将人物从一个场景“瞬移”到另一个场景，或者改变物体的运动速度，甚至让时间倒流!

有了这个神器，以后做视频剪辑就太轻松了，想加什么特效就加什么特效，完全不用担心技术问题，人人都能成为剪辑大师! 比如你想把朋友从家里“瞬移”到海边，只需要用 Casper 把朋友抠出来，再放到海边的背景上就搞定了，是不是很简单? 你甚至可以让朋友在视频里倒着走路，或者把朋友复制成好几个，一起跳舞，想想就觉得很有意思!

当然，Generative Omnimatte 现在还处于研发阶段，还有一些小 bug 需要解决。比如，如果视频里有多个很相似的物体，AI 就可能会分不清谁是谁，把它们搞混。另外，如果物体发生了形变，比如一根被压弯的杆子，AI 就不知道该怎么处理了。不过相信谷歌 DeepMind 团队很快就能解决这些问题，让 Generative Omnimatte 变得更加完美!

项目地址：https://gen-omnimatte.github.io/

论文地址：https://arxiv.org/pdf/2411.16683

GenerativeOmnimatte 谷歌视频抠图 AI模型

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

维基媒体基金会对 AI 爬虫的带宽负担发出警告

近年来，随着人工智能技术的飞速发展，网络爬虫对维基媒体项目造成的带宽压力日益严重。维基媒体基金会的代表指出，自2024年1月以来，用于服务多媒体文件的带宽消耗增加了50%。这一增长主要来源于自动化程序，这些程序不断从维基媒体的开放许可图像库中抓取内容，以供 AI 模型进行训练。维基媒体基金会的工作人员 Birgit Mueller、Chris Danis 和 Giuseppe Lavagetto 在公开信中表示，这一带宽增加并非源于人类用户，而是由于机器人程序的强大需求。他们强调:“我们的基础设施旨在承受人类

2025年4月3号 14:34

1.3k

NotebookLM推出新功能"Discover Sources"：革新信息收集与研究体验

2025 年 4 月 2 日，谷歌旗下人工智能驱动的研究工具NotebookLM正式推出了一项备受期待的新功能——"Discover Sources"（发现来源）。此功能的发布标志着NotebookLM在提升用户研究效率和信息整理能力方面迈出了重要一步，迅速引发了科技界和用户的广泛关注。以下是基于最新消息和官方信息的完整报道。新功能的亮点：从手动到智能的信息收集"Discover Sources"是NotebookLM的最新升级，旨在简化用户获取研究资料的过程。过去，用户需要手动上传文件、链接或文本作为研究来源，而现在，只需在Notebo

2025年4月3号 13:43

600

谷歌DeepMind预测：到2030年AGI 可能会超过人类并发布安全策略

谷歌 DeepMind 近日发布了一份详尽的战略文件，阐述了其开发安全人工通用智能（AGI）的方针。AGI 被定义为在大多数认知任务中能够与人类能力相匹配或超越的系统。DeepMind 预计，目前的机器学习方法，尤其是神经网络，仍将是实现 AGI 的主要途径。该报告指出，未来的 AGI 系统有可能超越人类表现，具备在规划和决策上显著的自主性。这种技术将对医疗、教育、科学等多个领域产生深远影响。DeepMind 的首席执行官德米斯・哈萨比斯（Demis Hassabis）预测，早期 AGI 系统可能在5到10年内问世，但

2025年4月3号 9:34

3.5k

谷歌Gemini应用负责人Sissie Hsiao将卸任实验室副总裁接管

据Semafor报道，负责谷歌AI聊天机器人的高管Sissie Hsiao将辞去Gemini应用程序负责人一职。根据该媒体获得的内部备忘录，谷歌实验室副总裁Josh Woodward将接替她的职位。谷歌发言人Alex Joseph已确认这一人事变动，但拒绝发表进一步评论。谷歌DeepMind首席执行官Demis Hassabis在备忘录中表示，此次变动将"让我们更加关注Gemini应用的下一次发展"。Hsiao在自己的备忘录中提到，她将"短暂休息"一段时间，随后将回到谷歌担任新职位。Hsiao在谷歌的职业生涯已近20年，自2006年加入公司担任搜索和文档产品经

2025年4月3号 9:24

2.2k

OpenAI 的 o3模型成本修正:每任务价格或将达到30，000美元

负责维护和管理 Arc Prize Foundation上周修正了对OpenAI即将推出的o3"推理"AI模型的成本估算，调整幅度惊人——从最初估计的每项ARC-AGI任务3，000美元飙升至30，000美元。这项价格修正揭示了当今最复杂AI模型的运行成本可能比预期高出十倍。尽管OpenAI尚未公布o3的官方定价策略，甚至尚未正式发布该模型，但Arc Prize Foundation认为以OpenAI当前最昂贵的o1-pro模型为参考更为合理。Arc Prize Foundation联合创始人Mike Knoop表示:"我们认为o1-pro与真正的o3成本更接近……因为测试时使用的计算量很大。"鉴于相关

2025年4月3号 9:05

230

Hugging Face 新增实用功能：一键查看电脑可运行模型

人工智能开源社区的领军平台 Hugging Face 推出了一项备受期待的新功能:用户可以通过平台设置，快速查看自己的电脑硬件能够运行哪些机器学习模型。据了解，用户只需在 Hugging Face 的个人设置页面（路径为“右上角头像 > Settings > Local Apps and Hardware”）添加自己的硬件信息，例如 GPU 型号、内存容量等，系统便会根据这些参数，智能分析并显示哪些模型(包括不同量化版本)能够在该设备上顺利运行。这一功能的亮点在于其直观性和便捷性，尤其对于开发者、研究人员以及 AI 爱好者来说

2025年4月3号 9:00

3.1k

研究称 OpenAI 可能未经授权使用 O'Reilly 付费书籍训练 AI 模型

近日，一项新研究引发关注，指控 OpenAI 在训练其最新的 AI 模型时，使用了 OReilly 媒体的付费书籍，但并未获得许可。这项研究由一家名为 AI Disclosures Project 的非营利组织发布，该组织是由媒体大亨 Tim OReilly 和经济学家 Ilan Strauss 于2024年共同创办的。AI 模型可以被视为复杂的预测引擎，它们通过大量的数据（包括书籍、电影、电视节目等）学习模式，从而对简单的提示进行推测。当模型写作时，例如创作关于希腊悲剧的文章，或者绘制风格化的图像，其实是从庞大的知识库中提取信息，而

2025年4月2号 9:35

3.2k

AI日报：Runway发布新视频模型Gen-4；宇树G1直播5分钟带货破百万；OpenAI将开源新模型

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/1、Runway惊艳发布AI视频生成模型Gen-4，角色场景一致性强到离谱Runway最近推出的Gen-4人工智能模型在媒体生成领域引起了广泛关注。尽管X在过去经历了波动，但近期因与GrokAI的整合和利润率改善逐渐回暖，用户也在回流。

2025年4月1号 15:30

6.7k

谷歌推出全新 AI 旅行功能，助力搜索量大幅增长

谷歌母公司 Alphabet Inc.（NASDAQ:GOOG，NASDAQ:GOOGL）宣布推出一系列新功能，旨在提升用户的旅行规划体验。这些更新涵盖了谷歌搜索、地图以及最新的 Gemini 人工智能平台，标志着谷歌在旅行搜索领域的重要布局。首先，在搜索功能方面，用户可以利用新的 AI 概述生成详细的旅行行程，并将这些行程保存为自定义列表，方便在谷歌地图上查阅。同时，谷歌还在全球范围内扩展了酒店价格跟踪功能，及时通知用户价格变动。这一功能不仅让旅行者能够更好地把握酒店价格动态，也为谷歌自身的广

2025年4月1号 11:33

10.8k

Krea 上线3D 功能并重构网站：从文本到立体，创作秒成型

近日，生成式 AI 平台 Krea 宣布推出3D 生成功能，并同步完成网站界面的全面重构。这标志着 Krea 在技术创新与用户体验上的双重突破，进一步巩固其在创意工具领域的领先地位。新上线的3D 生成功能是此次更新的核心亮点。用户可通过文本描述或2D 图像快速生成可交互的3D 对象，实时调整角度、光影与纹理。这一功能基于 Krea 自研 AI 模型和内部 GPU 集群，速度快、稳定性高，大幅降低3D 建模门槛。目前，该功能免费开放，适用于营销、游戏开发等场景，展现了 Krea “民主化 AI 创作”的理

2025年4月1号 11:21

1.8k

AI资讯

AI日报

AI时间线

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图

视频也能“PS”啦！谷歌DeepMind发布逆天AI模型 电影级特效轻松get！