轻松识别音频伪造！浙大清华联手打造AI语音隐私保护神器SafeEar

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Sep 26, 2024

158

在人工智能迅猛发展的今天，语音合成和转换技术日新月异，为我们带来了无比真实、自然的音频体验。然而，这些技术的进步也带来了潜在的安全隐患，特别是"语音克隆"技术可能被不法分子利用，威胁个人隐私和社会稳定。

针对这一挑战，浙江大学智能系统安全实验室和清华大学携手推出了一个革命性的语音伪造检测框架——SafeEar。这个框架不仅能高效检测伪造音频，还能在检测过程中保护用户的语音隐私，实现了安全与隐私的双重保障。

SafeEar的核心技术在于其采用的基于神经音频编解码器的解耦模型。这一创新设计能够将语音的声学特征与语义信息分离，仅依靠声学特征进行伪造检测。这不仅大幅提升了检测准确性，更重要的是在检测过程中不会泄露语音内容，有效保护了用户隐私。

该框架的结构包括前端解耦模型、瓶颈层、混淆层、伪造检测器以及真实环境增强等多个模块。通过这些模块的协同工作，SafeEar在面对各种伪造技术时展现出卓越的检测能力，误报率低至2.02%，几乎达到了当前最先进技术的水平。更令人欣喜的是，实验证明攻击者无法从声学信息中恢复出原始语音内容，充分证明了SafeEar在隐私保护方面的出色表现。

SafeEar的前端模块采用创新的解耦模型，能在分离和重建语音特征的过程中有效区分声学和语义信息。随后，瓶颈层和混淆层通过降维和随机混淆进一步保护语音信息，即使面对最先进的语音识别模型，也能有效防止真实信息被提取。

在伪造检测方面，SafeEar采用了基于声学输入的Transformer分类器，提高了检测的精准度和效率。此外，通过多种音频编解码器模拟不同环境下的音频情况，SafeEar还增强了模型的环境适应性。

经过一系列严格的实验测试，SafeEar不仅超越了许多传统检测方法，还在音频伪造检测领域树立了新的标准。更重要的是，SafeEar能在实际应用中实时保护用户的语音隐私，为智能语音服务的安全发展提供了强有力的支持。

通过这项技术，浙江大学和清华大学不仅开创了语音伪造检测的新领域，还构建了一个包含多种语言和声码器的丰富音频数据集。这为未来的研究和应用奠定了坚实的基础，使用户在享受便捷语音服务的同时，也能获得更好的隐私保护。

SafeEar的问世无疑为我们应对AI时代的隐私挑战提供了一个强有力的工具，让我们在享受技术便利的同时，也能更好地保护自己的隐私安全。

论文地址:https://safeearweb.github.io/Project/files/SafeEar_CCS2024.pdf

语音合成语音克隆 SafeEar 神经音频编解码器

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

AI虚拟化身引领技术新浪潮：生成模型开启多样化应用前景

近日，生成式AI技术取得突破性进展，使虚拟化身（AI Avatars）不仅具备了栩栩如生的外表，更能自然流畅地"开口说话"。这一技术融合了尖端的语音合成与面部表情生成能力，正以惊人的速度打破数字与现实世界的边界，将AI从幕后工具推向与人类直接对话的舞台中央。这些AI虚拟化身的出现标志着生成式AI技术融合迈出了关键一步。通过将高度逼真的面部动画与自然语音合成无缝结合，这些数字角色能够精确模拟人类的细微表情、实现精准的口型同步，甚至表达情感变化，使其在视觉与听

2025年4月9号 8:38

1.4k

字节跳动在Hugging Face发布MegaTTS3：轻量化语音合成新突破

北京——字节跳动（ByteDance）近日在人工智能开源社区Hugging Face上正式发布了其最新的文本转语音（TTS）模型MegaTTS3。这一发布迅速引起了全球AI研究者和开发者的关注，因其在轻量化设计和多语言支持方面的突破性表现。根据技术社区反馈和官方信息，MegaTTS3 被誉为语音合成领域的一次重要进步。MegaTTS3 的核心亮点MegaTTS3 是一款由字节跳动与浙江大学合作开发的开源语音合成工具，其主干模型仅包含0. 45 亿个参数，相较于传统大型TTS模型显得异常轻量。这一设计不仅降低了计算资源需求，

2025年4月3号 8:23

7.4k

Sesame发布CSM模型：实时情感定制 AI语音合成迈向新高度

3月13日，Sesame公司推出其最新语音合成模型CSM，引发业界关注。据官方介绍，CSM采用端到端基于Transformer的多模态学习架构，能够理解上下文信息，生成自然且富有情感的语音，声音效果贴近真人，令人惊艳。该模型支持实时语音生成，可处理文本和音频输入，用户还能通过调整参数控制语气、语调、节奏及情感等特性，展现高度灵活性。CSM被认为是AI语音技术的重要突破。其语音自然度极高，甚至“无法分辨是人工合成还是真人”。有用户录制视频展示CSM几近无延迟的表现，称其为“体验

2025年3月14号 10:53

5.0k

出门问问发布TicVoice 7.0 支持超自然语音克隆与跨语种生成能力

3月6日，出门问问（Mobvoi）联合香港科技大学、上海交通大学、南洋理工大学、西北工业大学等顶尖学术机构，共同开源新一代语音生成模型Spark-TTS，并重磅推出其商业化高品质TTS引擎——TicVoice7.0。作为出门问问第七代TTS引擎，TicVoice7.0在语音生成领域实现了重大突破，开启了全新的语音生成范式。

2025年3月7号 8:50

3.0k

文本转语音系统Spark-TTS：支持零样本语音克隆与细粒度控制

日前，一款名为 Spark-TTS 的先进文本转语音系统引发了 AI 社区的广泛讨论。根据最新的 X 帖子和相关研究，这款系统以其零样本语音克隆和细粒度语音控制能力脱颖而出，展现了语音合成领域的重大突破。这款系统充分利用了大型语言模型（LLM）的强大能力，致力于实现高度准确且自然的语音合成，适用于研究和商业领域。Spark-TTS 的设计理念强调简洁与高效。该系统完全基于 Qwen2.5构建，摒弃了以往需要额外生成模型的复杂流程。与其他模型不同，Spark-TTS 直接从 LLM 预测的代码中重建音频

2025年3月6号 11:29

3.8k

Sesame 发布 CSM 语音模型：跨越“恐怖谷”，逼真程度惊艳全球

Sesame 公司最新推出的语音合成模型“Conversational Speech Model”（简称 CSM）近日在 X 平台上引发热议，被誉为“像真人说话一样的语音模型”。这款模型以其惊艳的自然度和情感表达能力，不仅让用户“已经无法分辨”其与人类的区别，还宣称成功跨越了语音领域的“恐怖谷效应”。随着演示视频和用户反馈的传播，CSM 正迅速成为 AI 语音技术的新标杆。跨越“恐怖谷”:CSM 的技术突破“恐怖谷效应”是指当人工合成的语音或形象接近真实人类但仍存细微差异时，会引发人类的不适感。Sesame 通

2025年3月3号 11:37

6.3k

ElevenLabs 发布 Scribe 语音转文本模型，准确率创新高、英语达 96.7%

ElevenLabs 是一家备受瞩目的人工智能语音克隆与生成初创公司，近日推出了其最新的语音转文本模型 ——Scribe v1。该模型声称在多种语言中都达到了最高的准确性，用户可以通过其官网进行体验。根据 ElevenLabs 的基准测试，Scribe 在将口语准确转换为文本方面，超越了谷歌的 Gemini2.0Flash、OpenAI 的 Whisper v3和 Deepgram Nova-3，取得了前所未有的低错误率。该公司表示，Scribe 支持99种语言的高精度转录，其中包括在以前被忽视的语言，如塞尔维亚语、粤语和马拉雅拉姆语。ElevenLabs 的首席研究员 Fla

2025年2月27号 9:56

3.5k

HYBE旗下AI 声音工具Supertone Play上线：10秒搞定声音克隆

近日，HYBE 旗下的人工智能语音公司 Supertone 宣布推出了一款名为 “Supertone Play” 的文本转语音工具，旨在生成高质量、富有表现力的音频内容。这款新工具目前支持英语、韩语和日语，预计在今年内将扩展至西班牙语和中文。Supertone Play 提供了150种声音角色，适用于多种内容创作需求，包括自然对话、专业播报新闻和有声读物，以及潮流驱动的搞笑声音。此外，它还具备语音克隆功能，用户可以在短短10秒钟内根据自己的声音创建个性化的声音角色，并能够调整不同的情感语调，以满足不

2025年2月18号 9:52

3.5k

ZyphraAI 开源 Zonos-TTS:支持实时语音克隆和多语言情感控制

ZyphraAI 近日发布了其最新的多语言文本到语音（TTS）模型 **Zonos-TTS**，该模型基于 **Apache2.0许可证**，完全开源且可商用。Zonos-TTS 不仅支持实时语音克隆功能，还经过20万小时的英语语音数据训练，表现出卓越的性能。Zonos-TTS 提供了两种部署方式:支持本地部署和便捷的 API 服务。对于普通用户，ZyphraAI 提供每月免费生成 **100分钟** 音频的服务;专业版用户则可以选择 **300分钟/5美元** 的套餐，超出部分按每分钟 **0.02美元** 计费。特别值得一提的是，实时语音克隆功能完全免费，且支持高音频

2025年2月11号 10:27

5.3k

AI语音独角兽ElevenLabs完成2.5亿美元C轮融资，估值突破30亿

人工智能语音公司ElevenLabs再次引发关注，该公司刚刚完成了一轮高达2.5亿美元的C轮融资，估值在30亿至33亿美元之间。本次融资由ICONIQ Growth领投，显示出市场对AI语音技术的强烈信心。仅在一年之前，ElevenLabs刚刚完成了一笔8000万美元的B轮融资，当时的估值仅为现在的三分之一，可见该公司发展之迅猛。ElevenLabs由Mati Staniszewski和Piotr Dabkowski于2022年创立，旨在解决配音质量低劣的问题。如今，该公司已成为AI语音领域的领导者，其核心技术包括语音克隆和配音工具。随着生成式人工智能的兴

2025年1月25号 9:57

2.2k

AI资讯

AI日报

AI时间线

Al硬件

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图