Veo 2重磅登陆Gemini API：AI视频生成革命正式启航

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Apr 10, 2025

314

近日，谷歌旗下人工智能团队宣布，其备受瞩目的视频生成模型Veo2正式通过Gemini API向开发者开放。这一消息迅速在科技圈掀起热潮，标志着AI视频生成技术迈入了全新的发展阶段。据悉，从即日起，凡是启用计费功能并达到Tier1及以上级别的开发者，均可通过API调用Veo2，体验其强大的文本到视频（Text-to-Video）和图像到视频(Image-to-Video)生成能力。这一举措不仅为开发者提供了尖端工具，也为AI驱动的创意产业注入了新的活力。

Veo2作为谷歌DeepMind团队的最新力作，以其高保真视频生成能力和对复杂指令的精准响应著称。该模型支持从文本描述或静态图像生成动态视频，最高可输出720p分辨率、每秒24帧的8秒视频片段。无论是基于文字脚本生成原创剧情，还是从单张图片扩展出流畅的动画场景，Veo2都能以惊艳的视觉效果和物理真实感完成任务。此前，Veo2已在Google Labs的VideoFX工具中向部分用户开放测试，而此次通过Gemini API的全面放开，则意味着开发者能够将其嵌入自己的应用中，探索更广泛的商业与创意可能性。

技术分析显示，Veo2的成功得益于其在生成模型架构上的多项优化。相较于第一代Veo，该版本在运动准确性、镜头控制和画面一致性上实现了显著提升，能够更好地模拟现实世界的物理规律和人类动作细节。例如，开发者可以通过详细的文本提示，指定镜头类型、拍摄角度甚至光影效果，生成具有电影质感的视频内容。此外，其图像到视频功能也为游戏开发、虚拟现实和数字营销等领域提供了全新的创作手段。

对于开发者而言，Veo2的开放具有重要意义。Gemini API作为谷歌AI生态的核心接口，已支持包括Gemini2.5在内的多种多模态模型，而Veo2的加入进一步丰富了其功能版图。目前，启用计费的开发者可直接通过API调用Veo2，每秒视频生成费用为0.35美元，这一定价策略在提供高质量输出的同时兼顾了成本可控性。更重要的是，该API支持灵活的集成方式，开发者能够将其与现有工作流结合，快速构建从个性化短视频到交互式故事体验的多样化应用。

然而，这一技术的普及也伴随着潜在挑战。Veo2的高真实性输出可能引发关于内容真实性与版权归属的讨论。为此，谷歌在每段生成的视频中嵌入了不可见的SynthID水印，以标识其AI生成属性，旨在减少误用和信息误导的风险。此外，随着开发者规模的扩大，如何平衡计算资源的需求与服务的稳定性，也将成为谷歌需要持续优化的课题。

作为AI视频生成领域的佼佼者，Veo2通过Gemini API的开放，不仅为开发者打开了一扇通往未来的窗户，也为创意产业的数字化转型按下了加速键。从影视制作到教育内容生成，再到社交媒体的视觉创新，这一技术的落地应用前景令人期待。可以预见，随着开发者社区的深入探索，Veo2将在全球范围内掀起一场AI视频革命，重新定义我们与动态内容的交互方式。

API文档：https://ai.google.dev/gemini-api/docs/video

GeminiAPI Veo2 AI视频生成文本到视频

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

Pika推出全新AI视频功能Pika Twists，可以操控编辑视频中的任何角色或物体

AI视频生成平台Pika近日宣布推出其最新功能Pika Twists，为用户提供了一种创新的视频编辑方式。这一功能通过人工智能技术，允许用户仅用简单提示即可为视频添加意想不到的剧情转折或创意效果，极大地提升了内容创作的灵活性和趣味性。Pika Twists的核心功能Pika Twists主打视频内容的动态修改，用户可以通过文本提示操控视频中的任意角色或物体，生成戏剧性、幽默或超现实的转折效果，而视频的其他部分则保持原样。例如，用户可以让视频中的猫咪突然喝起咖啡，或让行驶的汽车凭空悬

2025年4月11号 11:13

890

Higgsfield Mix颠覆摄影规则：AI驱动虚拟摄像机突破物理限制

近日，AI视频生成领域的创新企业Higgsfield发布了一项名为Higgsfield Mix的突破性技术，彻底颠覆了传统摄像机的物理限制。据AIbase了解，这项技术允许用户在单次拍摄中组合多种运动控制，创造出真实摄像机无法实现的动态效果。同时，Higgsfield还推出了10种全新的运动控制模式，专为提升速度感、紧张氛围和电影化冲击力设计，为影视创作和数字内容生产带来了全新可能。突破物理限制:虚拟摄像机的革命Higgsfield Mix的核心在于其对虚拟摄像机的创新应用。传统摄像机受限于物理规律，无法实

2025年4月11号 9:55

690

Pika重磅发布超现实操控技术Pika Twists：AI视频编辑进入全新境界

近日，AI视频生成平台Pika推出了一项革命性的新技术，允许用户以超现实的方式操控视频中的任何角色或物体。这一突破性功能的发布迅速引发了全球创作者的热烈反响。据AIbase了解，Pika的这项技术能够实现高度逼真的视频编辑效果，来自其创作者社区的演示片段令人叹为观止，展现了AI在视频内容创作中的无限可能。超现实操控:视频编辑新体验Pika的新技术通过先进的AI算法，赋予用户前所未有的视频操控能力。无论是改变视频中角色的动作、调整物体的位置，还是为场景添加动态效果，

2025年4月11号 9:30

1.6k

Pika Twists重磅上线，可精准编辑视频中的特定角色或物体

人工智能视频生成领域再迎突破!Pika Labs最新推出的Pika Twists功能正式上线，为视频创作者带来了前所未有的灵活性和想象空间。这一功能允许用户精准编辑视频中的特定角色或物体，同时保持画面其他部分的完美一致，彻底颠覆传统视频编辑的复杂流程。AIbase为您深入解析这一创新功能的亮点及其对行业的潜在影响。Pika Twists:重塑视频中的现实Pika Twists的核心在于其强大的“选择性编辑”能力。无论是改变角色的服装、调整物体的位置，还是赋予画面全新的动态效果，用户只需通过简单的

2025年4月11号 9:23

2.9k

谷歌推出 Vertex AI Media Studio 文生视频套件，革新视频创作流程

2025年4月9日，谷歌正式宣布推出 Vertex AI Media Studio 文生视频套件，这一全新平台旨在通过人工智能技术大幅简化视频内容创作流程，为用户提供从文本到完整视频的一站式解决方案。这一消息迅速引起了科技圈和内容创作者的广泛关注。全流程自动化生成视频内容Vertex AI Media Studio 整合了谷歌的多项尖端 AI 模型，包括 Imagen3图像生成、Veo2视频制作、Chirp 语音合成以及 Lyria 背景音乐生成技术。用户只需输入简单的文本指令，平台便能自动完成画面渲染、旁白配音和背景音乐的制作，甚至无需

2025年4月10号 13:59

5.3k

AI视频生成技术TTT：可直出一分钟完整猫和老鼠动画无需编辑、拼接

近日，一项名为《One-Minute Video Generation with Test-Time Training》（一分钟视频生成与测试时训练）的全新研究论文正式发布，标志着人工智能视频生成技术迈入了一个崭新阶段。该研究通过在预训练Transformer模型中引入创新的测试时训练(TTT)层，成功实现了生成一分钟《猫和老鼠》(Tom and Jerry)动画视频的壮举。这一技术不仅在时间跨度上突破了传统AI视频生成的限制，还在画面连贯性和故事完整性上达到了令人惊叹的高度，为AI驱动的创意内容生产开辟了新的可能性。这项研究的亮点在于其生成

2025年4月9号 10:41

3.9k

Runway发布Gen-4 Turbo：AI视频生成速度再创新高

近日，人工智能视频生成领域的领军企业Runway宣布推出其最新模型“Gen-4Turbo”，为AI驱动的视频创作带来了显著的技术升级。据悉，这一版本在生成速度上实现了重大突破，仅需30秒即可生成一段10秒的高质量视频。这一进展不仅提升了创作效率，也进一步巩固了Runway在生成式AI领域的领先地位，为影视制作、广告设计等行业注入了新的活力。Gen-4Turbo是Runway Gen-4系列的最新迭代版本，延续了其前代在图像到视频生成（Image-to-Video）及世界一致性(World Consistency)上的技术优势，同时将速度优化推

2025年4月8号 10:18

1.9k

亚马逊 AI 视频模型 Nova Reel 升级：可生成长达两分钟的视频片段

亚马逊近日对其 AI 视频生成模型 Nova Reel 进行了升级，推出了 Nova Reel1.1版本。这个新版本不仅能够生成长达两分钟的视频片段，还可以制作多镜头视频，使得各个镜头之间的风格保持一致。Nova Reel 于2024年12月首次发布，是亚马逊在生成视频领域的重要尝试。据 AWS 开发倡导者 Elizabeth Fuentes 在一篇博文中透露，用户可以通过提供最长4，000个字符的提示，生成由六秒镜头组成的长视频。新版的 Nova Reel 还引入了一种名为 “Multishot Manual” 的新模式。在这种模式下，用户可以提供图像和文本提

2025年4月8号 9:27

1.8k

阿里推出OmniTalker：AI视频生成技术再突破，单参考视频实现风格化语音与表情同步

近日，阿里巴巴旗下研发团队发布了一项名为“OmniTalker”的全新AI技术项目，该项目凭借其惊艳的视频生成能力迅速引发业界关注。据悉，OmniTalker仅需一段参考视频，便能精准捕捉视频中人物的语音风格与面部表情，并以此为基础生成唇形同步、表情自然的动态视频。这一技术的亮相，不仅展现了阿里在生成式AI领域的深厚实力，也为视频内容创作带来了革命性的可能性。OmniTalker的核心优势在于其“零样本学习”能力。传统AI视频生成技术往往需要大量训练数据、复杂的模型调参或专业配

2025年4月7号 17:40

7.8k

Luma推出Ray2相机运动概念功能：AI视频迈向电影级镜头控制新境界

近日，人工智能视频生成领域的先锋企业Luma宣布，其旗舰模型Ray2迎来了一项重大功能更新——“相机运动概念”（Camera Motion Concepts）。这一功能通过引入20多种经过精确调校的摄像机运动模式，为AI生成的视频赋予了专业电影级的镜头表现力。这一创新不仅提升了视频创作的艺术性与精确性，也为广告制作、影视预览等领域带来了全新的可能性，标志着AI视频技术向更高层次迈进。据介绍，Ray2的相机运动概念功能涵盖了多种经典与现代的镜头运动方式，包括推进/拉远（Zoom/Push）、左右环

2025年4月7号 10:06

2.2k

AI资讯

AI日报

AI时间线

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图