StyleTTS 2

人级别文本转语音合成模型

普通产品音乐文本转语音语音合成

StyleTTS 2 是一款文本转语音（TTS）模型，使用大型语音语言模型（SLMs）进行风格扩散和对抗训练，实现了人级别的 TTS 合成。它通过扩散模型将风格建模为潜在随机变量，以生成最适合文本的风格，而无需参考语音。此外，我们使用大型预训练的 SLMs（如 WavLM）作为判别器，并结合我们的创新可微持续时间建模进行端到端训练，从而提高了语音的自然度。StyleTTS 2 在单说话人 LJSpeech 数据集上超越了人类录音，并在多说话人 VCTK 数据集上与之匹配，得到了母语为英语的评审人员的认可。此外，当在 LibriTTS 数据集上进行训练时，我们的模型优于先前公开可用的零样本扩展模型。通过展示风格扩散和对抗训练与大型 SLMs 的潜力，这项工作在单个和多说话人数据集上实现了一个人级别的 TTS 合成。

Best AI Websites & Tools

StyleTTS 2

StyleTTS 2 最新流量情况

StyleTTS 2 访问量趋势

StyleTTS 2 访问地理位置分布

StyleTTS 2 流量来源

StyleTTS 2 替代品

Zonos-v0.1-hybrid — Zonos-v0.1-hybrid 是一款领先的开源文本转语音模型，能够提供高质量的语音合成服务。

Llasa-1B — Llasa-1B 是一个基于 LLaMA 的文本转语音 (TTS) 模型，支持中英文语音合成。

CosyVoice 2 — 可扩展的流媒体语音合成技术，结合大型语言模型。

TTS Generator AI — 将任何文本内容转换为语音MP3，使用AI在几秒钟内生成声音！今天免费生成您的第一段语音！

Whisper Speech — 开源文本转语音系统

Crikk — 真实的文本转语音技术

Audioread — AI朗读文章，提高效率

Voice Remaker - Free AI Voice — 让Voice Remaker成为您最强大的AI语音生成助手

FreeTTS — 在线免费转换文本为语音

Forever Voices: Companion — 打造无限可能，一次只用一个声音。

Speechki ChatGPT Plugin: anything audio — 300+语音，78种语言，文本转语音

AiVOOV - Text to Speech Solution — 转换文本为语音的最佳AI声音生成器

Goedel-Prover — Goedel-Prover 是一款开源的自动化定理证明模型，专注于数学问题的形式化证明。

OmniParser-v2.0 — OmniParser 是一款通用屏幕解析工具，可将 UI 截图转换为结构化格式，提升基于 LLM 的 UI 代理性能。

星声AI — 星声AI是一个AI播客生成器，可以从任何内容生成AI博客。

Zonos-v0.1 — Zonos-v0.1 是一款具有高保真语音克隆功能的实时文本转语音（TTS）模型。

TurboTTS — TurboTTS 是一款免费的在线文本转语音工具，提供高质量、类似真人的语音合成服务。

Sonofa — 将网页、PDF或图片转化为引人入胜的播客，随时随地轻松聆听。

Orate — Orate 是一个专注于语音的 AI 工具包，支持文本转语音、语音转文本等功能。

LLaSA_training — LLaSA： 扩展基于 LLaMA 的语音合成的训练时间和测试时间计算量

Mistral-Small-24B-Instruct-2501 — Mistral Small 24B 是一款多语言、高性能的指令微调型大型语言模型，适用于多种应用场景。

Kokoro TTS — 一款基于StyleTTS 2架构的先进AI文本转语音模型，拥有8200万参数，提供高质量的自然语音合成。

Llasa-3B — Llasa-3B 是一个基于 LLaMA 的文本到语音合成模型，支持中英文语音生成。

DeepSeek-R1-Distill-Llama-70B — DeepSeek-R1-Distill-Llama-70B 是一款基于强化学习优化的大型语言模型，专注于推理和对话能力。

AI ContentCraft — AI ContentCraft 是一个多功能内容创作工具，集成了文本生成、语音合成和图像生成能力。

Hailuo AI Audio — Hailuo AI Audio是一款创建逼真语音的音频合成工具。

kokoro-onnx — 基于Kokoro和ONNX运行时的文本到语音（TTS）项目。

InternVL2_5-78B-MPO — 这是一个先进的多模态大型语言模型系列，展示了卓越的整体性能。

audiblez — 将电子书转换为有声书的工具。

LLaSA_training — LLaSA：扩展基于 LLaMA 的语音合成的训练时间和测试时间计算量