声音克隆公司 Resemble AI 发布了其深度伪造检测模型的下一代,准确率达到约94%。Detect-2B 使用一系列预训练的子模型和微调来检查音频片段,并确定其是否由 AI 生成。DETECT-2B能够以非常高的准确率(94% 以上)在短短 200 毫秒内对 30 多种语言的音频进行检测。通过这款高效、多语言的技术,我们能够有效地对抗 AI 生成的音频欺诈。
产品入口:https://top.aibase.com/tool/detect-2b
该公司在一篇博文中表示:“在我们最初的 Detect 模型的坚实基础上构建,DETECT-2B 在模型架构、训练数据和整体性能方面都取得了重大进展。结果是一个极其强大且准确的深度伪造检测模型,在大量真实和伪造音频片段的数据集上取得了非凡的性能。”
根据 Resemble 的说法,Detect-2B 的子模型 “由一个冻结的音频表示模型和一个插入到其关键层的自适应模块组成”。适应模块将模型的重点转向常常识别真实音频和伪造音频的意外声音 —— 即留在录音中的意外声音。大多数由 AI 生成的音频片段听起来 “过于干净”。Detect-2B 可以预测音频中由 AI 生成的部分,而无需每次听新片段时重新训练模型。子模型还经过大规模数据集的训练。
Detect-2B 将其预测分数汇总并与 “经过精心调整的阈值” 进行比较,然后确定录音是真实还是伪造的。Resemble 表示,其研究人员构建 Detect-2B 的方式使其在训练速度上更快,而不需要太多的计算资源来部署。
该模型的架构基于 Mamba-SSM 或状态空间模型,它不依赖静态数据或重复模式。相反,它使用了一种随机概率模型,对不同的变量更加响应。Resemble 表示,这种架构在音频检测方面表现良好,因为它捕捉了音频剪辑中的不同动态,适应了音频信号的各个状态,并且即使录音质量较差,仍能继续工作。
为了评估该模型,Resemble 表示,他们对 Detect-2B 进行了测试,其中包括未知的发言人、深度伪造生成的音频以及不同的语言。该公司称,该模型以至少93% 的准确率正确检测到了六种不同语言的深度伪造音频。
Resemble 在四月份推出了其 AI 语音平台 Rapid Voice Cloning。Detect-2B 将通过 API 提供,并可集成到不同的应用程序中。
Resemble 并不是唯一一个致力于检测 AI 克隆的公司。McAfee 在一月份推出了项目 Mockingbird,用于检测 AI 音频。而 Meta 则正在开发一种为 AI 生成的音频添加水印的方法。
划重点:
- Resemble AI 发布的 Detect-2B 模型是下一代深度伪造检测模型,准确率达到94%。
- Detect-2B 使用预训练的子模型和微调来检查音频片段,判断其是否由 AI 生成。
- 模型的架构基于随机概率模型,对音频信号的不同动态更加敏感,并且在不同语言的深度伪造音频检测上表现出色。