CosyVoice 2
可扩展的流媒体语音合成技术,结合大型语言模型。
普通产品生产力语音合成流媒体
CosyVoice 2是由阿里巴巴集团的SpeechLab@Tongyi团队开发的语音合成模型,它基于监督离散语音标记,并结合了两种流行的生成模型:语言模型(LMs)和流匹配,实现了高自然度、内容一致性和说话人相似性的语音合成。该模型在多模态大型语言模型(LLMs)中具有重要的应用,特别是在交互体验中,响应延迟和实时因素对语音合成至关重要。CosyVoice 2通过有限标量量化提高语音标记的码本利用率,简化了文本到语音的语言模型架构,并设计了块感知的因果流匹配模型以适应不同的合成场景。它在大规模多语言数据集上训练,实现了与人类相当的合成质量,并具有极低的响应延迟和实时性。
CosyVoice 2 最新流量情况
月总访问量
8422
跳出率
61.45%
平均页面访问数
1.5
平均访问时长
00:00:46