Meta近日发布了语音翻译新模型Seamless Communication系列,包括4个模型,支持近100种语言之间的实时语音互译,延迟控制在2秒左右。模型可复刻源语音的停顿、语气、语速等复杂特征,让翻译更加逼真。采用非自回归架构以支持长序列翻译。此外Meta还开源了模型及58.5万小时规模最大的语音语料库,并增加音频水印和翻译毒性缓解等功能以防模型滥用。
Meta近日发布了语音翻译新模型Seamless Communication系列,包括4个模型,支持近100种语言之间的实时语音互译,延迟控制在2秒左右。模型可复刻源语音的停顿、语气、语速等复杂特征,让翻译更加逼真。采用非自回归架构以支持长序列翻译。此外Meta还开源了模型及58.5万小时规模最大的语音语料库,并增加音频水印和翻译毒性缓解等功能以防模型滥用。