CosyVoice 2

可扩展的流媒体语音合成技术，结合大型语言模型。

普通产品生产力语音合成流媒体

CosyVoice 2是由阿里巴巴集团的SpeechLab@Tongyi团队开发的语音合成模型，它基于监督离散语音标记，并结合了两种流行的生成模型：语言模型（LMs）和流匹配，实现了高自然度、内容一致性和说话人相似性的语音合成。该模型在多模态大型语言模型（LLMs）中具有重要的应用，特别是在交互体验中，响应延迟和实时因素对语音合成至关重要。CosyVoice 2通过有限标量量化提高语音标记的码本利用率，简化了文本到语音的语言模型架构，并设计了块感知的因果流匹配模型以适应不同的合成场景。它在大规模多语言数据集上训练，实现了与人类相当的合成质量，并具有极低的响应延迟和实时性。

Best AI Websites & Tools

CosyVoice 2

CosyVoice 2 最新流量情况

CosyVoice 2 访问量趋势

CosyVoice 2 访问地理位置分布

CosyVoice 2 流量来源

CosyVoice 2 替代品

Zonos-v0.1-hybrid — Zonos-v0.1-hybrid 是一款领先的开源文本转语音模型，能够提供高质量的语音合成服务。

Mistral-Small-24B-Instruct-2501 — Mistral Small 24B 是一款多语言、高性能的指令微调型大型语言模型，适用于多种应用场景。

ElevenLabs Flash — 快速生成类人语音的TTS模型

InternVL2_5-4B — 多模态大型语言模型，融合视觉与语言理解。

InternVL2_5-8B — 多模态大型语言模型，支持图像与文本的交互理解。

Llama-3.3-70B-Instruct — 70亿参数的多语言大型语言模型

Llama-3.2-3B — 多语言大型语言模型

XVERSE-MoE-A36B — 多语言大型语言模型，支持多领域文本生成。

CLASI — 高质量、类人同声传译系统

Meta-Llama-3.1-405B-Instruct-FP8 — 多语言对话生成模型

Mistral-Large-Instruct-2407 — 先进的大型语言模型，具备推理和编程能力。

Meta-Llama-3.1-8B — 8B参数的大型多语言生成模型

Meta-Llama-3.1-70B — 70亿参数的大型多语言文本生成模型

Llama 3.1 — 最前沿的开源AI模型，支持多语言和高级功能。

CosyVoice — 多语言大型语音生成模型，提供全栈推理、训练和部署能力。

ToucanTTS — 多语言可控文本到语音合成工具包

ChatTTS.com — 自然对话场景下的文字转语音模型

Carteisa Sonic — 低延迟语音模型，生成逼真语音

OpenVoice V2 — OpenVoice V2是一款支持多语言的语音合成模型，提供高质量的语音克隆与风格控制功能。

StyleTTS 2 — 人级别文本转语音合成模型

Voxify — 超逼真AI语音生成

SeamlessM4T — 一款基于多模态模型的语音翻译产品，支持近100种语言的自动语音识别、语音翻译、文本翻译、语音合成等功能。

Voicejacket — AI语音合成工具，真实度超乎想象

FolkTalk — AI视频配音 | FolkTalk

CLaMP 3 — CLaMP 3 是一个用于跨模态和跨语言音乐信息检索的统一框架。

Supertone Play — 一个提供语音克隆和AI语音内容创作的平台。

Step-Audio — Step-Audio是一个开源智能语音交互框架，支持多语言对话、情感语调和语音克隆等功能。

Goedel-Prover — Goedel-Prover 是一款开源的自动化定理证明模型，专注于数学问题的形式化证明。

OmniParser-v2.0 — OmniParser 是一款通用屏幕解析工具，可将 UI 截图转换为结构化格式，提升基于 LLM 的 UI 代理性能。