Seed-TTS

高质量、多功能的语音合成模型系列

优质新品生产力语音合成文本到语音

Seed-TTS是由字节跳动推出的一系列大规模自回归文本到语音(TTS)模型，能够生成与人类语音难以区分的语音。它在语音上下文学习、说话人相似度和自然度方面表现出色，通过微调可进一步提升主观评分。Seed-TTS还提供了对情感等语音属性的优越控制能力，并能生成高度表达性和多样性的语音。此外，提出了一种自蒸馏方法用于语音分解，以及一种增强模型鲁棒性、说话人相似度和控制性的强化学习方法。还展示了Seed-TTS模型的非自回归(NAR)变体Seed-TTSDiT，它采用完全基于扩散的架构，不依赖于预先估计的音素持续时间，通过端到端处理进行语音生成。

Best AI Websites & Tools

Seed-TTS

Seed-TTS 最新流量情况

Seed-TTS 访问量趋势

Seed-TTS 访问地理位置分布

Seed-TTS 流量来源

Seed-TTS 替代品

MaskGCT TTS Demo — 基于MaskGCT模型的文本到语音演示

F5-TTS — 基于深度学习的高质量文本到语音合成模型

VALL-E 2 — 微软亚洲研究院开发的语音合成技术

Seed-TTS — 高质量、多功能的语音合成模型系列

Llasa-3B — Llasa-3B 是一个基于 LLaMA 的文本到语音合成模型，支持中英文语音生成。

Kokoro-82M — 一个拥有8200万参数的前沿文本到语音（TTS）模型。

Synthesys — AI内容生成平台，提供视频、语音和图像生成服务

Gemini 2.0 Flash Experimental — Google DeepMind开发的高性能AI模型

CosyVoice语音生成大模型2.0-0.5B — 高效、多语种的语音合成模型

OuteTTS-0.2-500M — 高性能的文本到语音合成模型

OuteTTS-0.1-350M — 一款通过纯语言模型实现的文本到语音合成模型

Fish Speech — 语音合成工具，提供高质量的语音生成服务

MaskGCT — 无需对齐信息的零样本文本到语音转换模型

Llama 3.2 3b Voice — 使用Llama模型的语音合成工具

Deepgram Voice Agent API — 实时对话式人工智能，一键式API接入。

OptiSpeech — 轻量级端到端文本到语音模型

OpenVoiceChat — 与大型语言模型进行自然的语音对话

speech-to-speech — 开源的语音到语音转换模块

Bailing-TTS — 生成高质量中文方言语音的大规模文本到语音模型。

ToucanTTS — 多语言可控文本到语音合成工具包

Hume AI EVI — 用于构建理解和模拟人类语音表情的声控人工智能接口。

BASE TTS — 亚马逊的大规模语音合成模型

kg-gen — 从任何文本中提取知识图谱的人工智能工具。

Kie.ai — 在Kie.ai上集成DeepSeek R1和V3 API，提供安全且可扩展的AI解决方案。

hallucination-leaderboard — 一个用于比较大型语言模型在总结短文档时产生幻觉的排行榜。

KET-RAG — KET-RAG 是一个结合知识图谱的检索增强型生成框架，用于高效文档索引和答案生成。

星声AI — 星声AI是一个AI播客生成器，可以从任何内容生成AI博客。

Proxy — Proxy 是一个全自动化的 AI 助手，用于完成日常任务。

DeepSeek 模型兼容性检测 — 检测设备是否能运行不同规模的 DeepSeek 模型，提供兼容性预测。