CosyVoice 2

可扩展的流媒体语音合成技术,结合大型语言模型。

普通产品生产力语音合成流媒体
CosyVoice 2是由阿里巴巴集团的SpeechLab@Tongyi团队开发的语音合成模型,它基于监督离散语音标记,并结合了两种流行的生成模型:语言模型(LMs)和流匹配,实现了高自然度、内容一致性和说话人相似性的语音合成。该模型在多模态大型语言模型(LLMs)中具有重要的应用,特别是在交互体验中,响应延迟和实时因素对语音合成至关重要。CosyVoice 2通过有限标量量化提高语音标记的码本利用率,简化了文本到语音的语言模型架构,并设计了块感知的因果流匹配模型以适应不同的合成场景。它在大规模多语言数据集上训练,实现了与人类相当的合成质量,并具有极低的响应延迟和实时性。
打开网站

CosyVoice 2 最新流量情况

月总访问量

8422

跳出率

61.45%

平均页面访问数

1.5

平均访问时长

00:00:46

CosyVoice 2 访问量趋势

CosyVoice 2 访问地理位置分布

CosyVoice 2 流量来源

CosyVoice 2 替代品