Resemble AI,一家领先的语音克隆公司,近日宣布发布了其下一代深度伪造检测模型 Detect-2B。这款新模型在检测 AI 生成的音频方面表现出了约94%的高准确率,标志着深度伪造检测技术的又一重要进步。
Detect-2B 利用一系列预先训练的子模型和微调技术,对音频片段进行深入检查,以确定其是否为 AI 生成。Resemble AI 在其博客中表示,Detect-2B 在原有 Detect 模型的基础上,实现了模型架构、训练数据和整体性能的重大飞跃,打造出了一个极其稳健且准确的检测模型。
Detect-2B 的子模型由一个冻结的音频表示模型和插入关键层的自适应模块组成。这些自适应模块将模型的焦点转移到伪像上,即录音中留下的意外声音,这些声音通常可以区分真实音频和 AI 生成的音频。AI 生成的音频往往听起来“太干净”,而 Detect-2B 能够预测音频的 AI 生成概率,无需在每次收听新片段时重新训练模型。
图源备注:图片由AI生成,图片授权服务商Midjourney
Resemble AI 还提到,Detect-2B 的架构基于 Mamba-SSM 或状态空间模型,这些模型不依赖于静态数据或重复模式,而是使用随机或随机概率模型,对不同的变量反应更好。这种架构非常适合音频检测,因为它可以捕捉音频片段中的不同动态,适应音频信号的状态,即使录音质量较差也能继续执行。
在评估模型性能时,Resemble AI 对 Detect-2B 进行了广泛的测试,包括未见过的说话者、深度伪造生成的音频和不同语言。该公司表示,该模型能够以至少93%的准确率正确检测六种不同语言的深度伪造音频。
Resemble AI 于4月推出了其 AI 语音平台 Rapid Voice Cloning。Detect-2B 将通过 API 提供,并可集成到不同的应用程序中,为企业提供强大的深度伪造检测工具。
随着2024年美国总统大选的临近,识别人工智能生成的声音或视频变得越来越重要。人工智能声音可能会让误导选民和传播错误信息变得更加容易,削弱了人们对品牌的信任。Detect-2B 等工具可以在深度伪造被公众知晓之前,帮助识别和证明这些伪造品。
Resemble AI 并不是唯一一家致力于检测 AI 克隆的公司。McAfee 于1月启动了 Project Mockingbird 来检测 AI 音频,而 Meta 正在开发一种在 AI 生成的音频中添加水印的方法。
Resemble AI 表示,随着生成式人工智能能力的不断进步,他们的检测能力也必须不断进步。他们计划了几个令人兴奋的研究方向来进一步改进 Detect-2B,重点关注表征学习、高级模型架构和数据扩展等领域。这表明 Resemble AI 致力于持续创新,以应对深度伪造技术的挑战。