在实时通信的世界里,无论是电话还是视频会议,声音都是我们表达自我的重要工具。但你有没有想过,如果我们能在不影响语言内容和韵律的情况下,实时改变说话者的声音音色,那会怎样?StreamVC技术的出现,让我们能够做到这一点。

StreamVC是一项创新的声音转换解决方案,它能够在保持源语音内容和韵律的同时,匹配目标语音的音色。与传统方法不同,StreamVC在输入信号上以低延迟产生结果波形,甚至在移动平台上也能实现,使其适用于实时通信场景,如电话和视频会议,以及这些场景中的声音匿名化。

技术亮点:

实时性:StreamVC能够在移动设备上实现70.8毫秒的低延迟推理。

高质量语音合成:利用SoundStream神经音频编解码器的架构和训练策略,实现轻量级高质量的语音合成。

音高稳定性:通过引入白化基频(f0)信息,提高音高一致性,而不泄露源说话者音色信息。

image.png

StreamVC的设计灵感来源于Soft-VC和SoundStream。它使用HuBERT模型提取的离散语音单元作为内容编码器网络的预测目标。内容编码器和解码器的架构以及训练策略都采用了SoundStream神经音频编解码器的设计,以实现高质量的因果音频合成。

StreamVC在多个基准测试中与现有技术进行了比较,包括自然度、可理解性、说话者相似度和音高一致性。实验结果显示,StreamVC在保持源语言的音调方面表现出色,且在说话者相似度方面也能与经过微调的模型相媲美。

StreamVC证明了在移动设备上以低延迟进行高效的声音转换是完全可行的。HuBERT衍生的软语音单元可以通过可流式传输的因果卷积神经网络架构学习得到,向解码器注入白化f0信息对于提供高质量的输出至关重要。

论文地址:https://arxiv.org/pdf/2401.03078