谷歌新语音克隆技术：仅需几秒钟音频样本，即可实现声音克隆

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Sep 25, 2024

474

在科技迅猛发展的今天，语音合成技术也在进步，尤其恢复失去声音领域。最近，谷歌研究人员们提出了一种名为 “零样本语音转换（zero-shot voice transfer）” 的新技术项技术可以直接与最先进的文本语音（TTS）系统相结合，帮助那些因疾病事故失去声音的人，找回他们的 “声音记忆。

这项技术的核心在于 “零样本” 能力，意味着我们不需要大量样本就能实现语音转换。也就是说，仅需几秒钟的参考音频，即可实现声音克隆，且支持合成跨语言的音频。

“零样本” 克隆声音能力

研究团队利用来自 VCTK 语音库的音频样本，展示了这一技术的强大功能。比如，通过使用已经录制好的普通话、英语和西班牙语等多语言的音频系统可以模拟出这些语言的声音特点，生成与原音接近的合成语音。

项目入口：https://google.github.io/tacotron/publications/zero_shot_voice_transfer/

令人惊的是，这种转换限于一种语言，研究还展示了语言的能力，例如研究团队用英语的声音样本来合成法语、德语甚至阿拉伯语的语音样的表现让人耳目一新。

为了验证技术的有效，研究人员进行了大量实验，包括与具有特殊发音的说话者进行合作。他们通过仅仅 12 秒和 14 秒的音频样本，生成了类似的语音，充分证明了这一技术的强大适应性。

在测试中，研究人员将这项技术扩展到了六种不同语言，进一步展示了其灵活性和实用性。

支持多语言示例：

这项技术的推广仅可以帮助失声人士恢复声音，还能为跨语言交流了新的可能性提升了无障碍交流的效率和便利性。可以说，零样本语音转换技术的出现，将使我们的生活更加丰富彩，让每个人都能在语言的海洋中畅游，享受交流的乐趣。

划重点
🎤 ** 零本语音转换技术：一种无需大量样本的语音成技术，可帮助声人士找回声音。
🌍 ** 语言能力 **：技术可以实现不同语言之间的声音转换，大丰富了语音交流的可能性。
🗣️ ** 特殊发音者的应用：通过短时间的声音样本，团队成功合成特殊发音者的语，展示了技术的适应性与灵性。

零样本语音转换谷歌语音合成技术声音克隆

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

谷歌DeepMind Genie 2亮相《60 Minutes》，革新3D交互环境生成技术

CBS著名栏目《60Minutes》深入报道了谷歌DeepMind人工智能研究实验室的最新突破，重点聚焦其全新AI模型——Genie2。据AIbase了解，Genie2能够从单一图像或简单文本描述生成高度逼真的3D交互式环境，为机器人训练、虚拟世界构建及通用人工智能（AGI）发展开辟了新路径。社交平台上的热烈讨论凸显了其技术革新性，相关细节已通过DeepMind官网(deepmind.google)与Hugging Face公开。图源备注：图片由AI生成，图片授权服务商Midjourney核心功能:从单一输入到交互式3D世界Genie2以其端到端的3D环境生成能力，标

2025年4月30号 9:28

1.3k

谷歌每月向三星支付巨额款项，确保 Gemini AI 助理成为默认选择

在谷歌的反垄断审判中，有关谷歌与三星之间财务交易的细节浮出水面。根据《彭博社》的报道，谷歌为了将 Gemini AI 应用程序预装在三星设备上，每月向三星支付 “巨额资金”。这一消息是在法官阿米特・梅塔裁定谷歌的搜索引擎构成非法垄断的背景下披露的。谷歌平台与设备合作伙伴关系的副总裁彼得・菲茨杰拉德在审判中作证表示，谷歌的支付安排从今年1月开始，这正是谷歌被发现违反反垄断法后所做出的举措之一。作为回应，三星在1月份推出的 Galaxy S25系列手机中，将 Gemini 设置

2025年4月28号 15:23

4.7k

谷歌 DeepMind 员工计划加入工会反对军事AI项目

近日，据《金融时报》报道，约300名位于伦敦的谷歌 DeepMind 员工正计划加入通信工人联合会（CWU）。这一举动是为了挑战谷歌将人工智能技术出售给防务公司的决定，以及其通过 “云计算项目”(Project Nimbus)与以色列政府的紧密关系。此举发生在谷歌未能兑现其在今年2月承诺不开发武器或监控用人工智能之后。图源备注:图片由AI生成，图片授权服务商Midjourney员工们对自己所开发的技术可能被用于加沙冲突感到担忧，尤其是一位工程师向《金融时报》表示，已经有五名员工因这些担忧而选

2025年4月28号 10:13

1.2k

谷歌被曝每月巨资贿赂三星，助推 Gemini 应用预装

近日，谷歌在反垄断审判中陷入了新的风波。据报道，谷歌每月向三星支付巨额资金，以促使其在 Galaxy S25系列智能手机中预装 Gemini 人工智能应用。这一消息引发了广泛关注，尤其是在谷歌被指控违反反垄断法后，这种商业行为是否构成新的不当竞争仍待观察。据了解，谷歌与三星的这一合作协议是在谷歌被判定存在非法垄断行为之后开始的。根据协议，Gemini 将成为 Galaxy S25的默认 AI 助手。这一策略显然是谷歌为巩固其市场地位而采取的措施，试图通过预装应用来吸引更多用户。然而，

2025年4月28号 9:28

2.1k

谷歌在垄断审判中被曝向三星支付巨款预装Gemini应用

据彭博社报道，正在进行的谷歌反垄断审判本周的证词显示，谷歌每月向三星支付“巨额资金”，以在其设备上预装其Gemini人工智能应用程序。这一信息正值法官阿米特·梅塔(Amit Mehta)已裁定谷歌的搜索引擎构成非法垄断之后，目前谷歌的律师正与美国司法部就潜在的处罚力度展开辩论。谷歌平台和设备合作副总裁彼得·菲茨杰拉德周一作证称，谷歌与三星之间的这笔付款协议始于今年1月份。值得注意的是，这笔交易启动于谷歌被认定违反反垄断法之后，而此前谷歌被判定垄断的部分原因

2025年4月27号 17:06

6.4k

Alphabet 第一季度业绩超预期，宣布700亿美元股票回购，AI 概览月活达15亿

谷歌母公司 Alphabet 公布2025年第一季度业绩，营收达到902.3亿美元，每股收益2.81美元，双双超出华尔街分析师的预期。受此消息提振，Alphabet 股价在盘后交易中上涨4%。首席执行官桑达尔·皮查伊（Sundar Pichai）将谷歌核心搜索业务的强劲表现和稳定的广告收入视为本季度业绩的关键驱动力。广告收入同比增长8.5% 至668.9亿美元，占据总收入的四分之三。尽管增速较上一季度有所放缓，但仍超出预期。谷歌云收入为122.6亿美元，同比增长28%，略低于分析师预期和上一季度的30.1% 的增长率。Alpha

2025年4月27号 9:53

6.3k

Gmail 更新：Android 平板用户迎来全新界面和 AI 功能

最近，谷歌为其 Gmail 移动应用推出了一系列更新，涵盖 Android 和 iOS 用户。这次更新不仅带来了设计上的改进，还增加了对 AI 功能的访问，旨在提升用户体验。对于 Android 平板和可折叠设备的用户来说，Gmail 应用界面的灵活性得到了显著提升。用户现在可以在横向视图中自由拖动分隔线，以调整列表和对话窗格的大小。如果用户更喜欢单窗格视图，只需将分隔线拖到一侧即可。这项更新目前已经向所有 Workspace 和个人账户用户推出。与此同时，iOS 用户也将体验到 Material Design3的更新。这一

2025年4月27号 9:41

6.0k

谷歌AI发布601个真实世界的生成式AI应用案例，涵盖各行业

谷歌云近期发布了一份令人瞩目的报告，展示了601个来自全球顶尖企业的真实世界生成式 AI（GenAI）应用案例。这一数字比去年在谷歌云大会上分享的101个案例增长了六倍，展现了生成式 AI 技术从原型走向生产应用的飞速进展，这些技术正在几乎所有行业中推动变革。在2025年谷歌云大会上宣布的这份报告涵盖了从优步、三星、花旗到梅赛德斯 - 奔驰、德意志银行和阿拉斯加航空等多家知名公司的应用。这些案例强调了生成式 AI 在汽车、金融、医疗、制造、媒体、零售及公共部门等行业中

2025年4月27号 8:58

4.3k

DeepMind 员工抗议谷歌与军工合同，引发工会组建潮

近日，谷歌旗下的 DeepMind 公司在英国的员工们正积极寻求组建工会，以对抗公司将人工智能技术出售给军工集团的决定，以及与以色列政府之间的合作关系。据悉，约有300名位于伦敦的 DeepMind 员工已向英国通信工人工会（CWU）递交了申请，期望通过工会的力量来改变公司现有的商业化策略。谷歌正在推动 DeepMind 寻找其技术的商业应用，这一过程引起了员工们的广泛担忧。2月份，谷歌对其人工智能道德准则进行了更新，删除了之前承诺不开发用于武器系统的条款，这一举动在员工中引发了

2025年4月27号 8:53

1.3k

谷歌 CEO 皮查伊透露：超 30% 的代码由 AI 生成

在最近的 Alphabet Q12025财报电话会议上，谷歌 CEO 皮查伊透露，谷歌目前超过30% 的代码是借助人工智能（AI）生成的。这意味着开发者在每三次代码更改中，就有一次是接受了 AI 的建议。皮查伊指出，随着更强大的模型和主动工作流程的引入，AI 辅助编程在各个团队中的应用势头强劲。主动工作流程是指能够规划和执行多步骤任务的 AI 系统。他表示:“我们正在公司各个部门推广这些更深层次的工作流程，” 并特别提到客户服务团队在应用 AI 方面的进展领先。Alphabet 于4月24日发布了2025年第

2025年4月25号 16:19

2.0k

AI资讯

AI日报

AI时间线

Al硬件

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图

谷歌新语音克隆技术：仅需几秒钟音频样本，即可实现声音克隆

AIbase基地

本文来自AIbase日报

相关AI新闻推荐

谷歌DeepMind Genie 2亮相《60 Minutes》，革新3D交互环境生成技术

​谷歌每月向三星支付巨额款项，确保 Gemini AI 助理成为默认选择

​谷歌 DeepMind 员工计划加入工会 反对军事AI项目