2024-07-24 14:37:12.AIbase.10.5k
Voice Actors in Danger! Microsoft's VALL-E 2 Achieves Voice Cloning at Professional Level
微软近期发布了一款零样本文本到语音(TTS)模型VALLE-2,该成果在技术界引发热议,被认为是TTS领域的里程碑。VALLE-2的创新之处在于其零样本学习能力,仅需一小段陌生语音样本,便能模仿声音说任意文本,实现了惊人的即时模仿和编码器分组。它还改进了重复感知采样,提高解码稳定性,并简化了数据需求。在主观评分和客观指标的测试中,VALLE-2超越了前代模型VALLE,几乎达到人类语音水平。然而,强大的语音模仿能力也引发了对Deepfake技术滥用的担忧,特别是关于伦理考量和潜在风险,如模型对非英美口音处理能力及计算效率的改进空间。当前,微软仅将其作为研究项目,并强调了合成语音检测和授权机制的重要性。未来在语音助手、内容创作等领域的应用值得期待,同时需要关注技术的伦理使用与风险防控。更多关于VALLE-2的信息可访问项目页面:Microsoft官网。