Spark-TTS

Spark-TTS 是一种基于大语言模型的高效单流解耦语音合成模型。

普通产品生产力语音合成大语言模型

Spark-TTS 是一种基于大语言模型的高效文本到语音合成模型，具有单流解耦语音令牌的特性。它利用大语言模型的强大能力，直接从代码预测的音频进行重建，省略了额外的声学特征生成模型，从而提高了效率并降低了复杂性。该模型支持零样本文本到语音合成，能够跨语言和代码切换场景，非常适合需要高自然度和准确性的语音合成应用。它还支持虚拟语音创建，用户可以通过调整参数（如性别、音高和语速）来生成不同的语音。该模型的背景是为了解决传统语音合成系统中效率低下和复杂性高的问题，旨在为研究和生产提供高效、灵活且强大的解决方案。目前，该模型主要面向学术研究和合法应用，如个性化语音合成、辅助技术和语言研究等。

Best AI Websites & Tools

Spark-TTS

Spark-TTS 最新流量情况

Spark-TTS 访问量趋势

Spark-TTS 访问地理位置分布

Spark-TTS 流量来源

Spark-TTS 替代品

Llasa — 基于Llama框架的TTS基础模型，兼容16万小时标记化语音数据。

Level-Navi Agent-Search — Level-Navi Agent是一个无需训练即可使用的框架，利用大语言模型进行深度查询理解和精准搜索。

Octave TTS — Octave TTS 是首个能够理解文本含义的语音合成模型，能够生成富有情感和风格的语音。

IndexTTS — 工业级可控高效的零样本文本到语音系统

M2RAG — 用于多模态上下文中的检索增强生成的基准测试代码库。

TableGPT2-7B — TableGPT2-7B 是一款专注于表格数据处理的大语言模型，适用于数据分析和商业智能任务。

MoBA — MoBA 是一种用于长文本上下文的混合块注意力机制，旨在提升大语言模型的效率。

星声AI — 星声AI是一个AI播客生成器，可以从任何内容生成AI博客。

Zonos-v0.1-hybrid — Zonos-v0.1-hybrid 是一款领先的开源文本转语音模型，能够提供高质量的语音合成服务。

LLaSA_training — LLaSA： 扩展基于 LLaMA 的语音合成的训练时间和测试时间计算量

MNN 大模型 Android App — 一款支持多模态功能的全功能大语言模型安卓应用。

Llasa-1B — Llasa-1B 是一个基于 LLaMA 的文本转语音 (TTS) 模型，支持中英文语音合成。

Llasa-3B — Llasa-3B 是一个基于 LLaMA 的文本到语音合成模型，支持中英文语音生成。

Baichuan-M1-14B — 百川智能开发的专为医疗场景优化的开源大语言模型，具备卓越的通用能力和医疗领域性能。

Doubao-1.5-pro — Doubao-1.5-pro 是一个高性能的稀疏 MoE 大语言模型，专注于推理性能与模型能力的极致平衡。

PaSa — PaSa 是一个由大语言模型驱动的先进学术论文搜索代理，能够自主决策并获取准确结果。

AI ContentCraft — AI ContentCraft 是一个多功能内容创作工具，集成了文本生成、语音合成和图像生成能力。

Hailuo AI Audio — Hailuo AI Audio是一款创建逼真语音的音频合成工具。

kokoro-onnx — 基于Kokoro和ONNX运行时的文本到语音（TTS）项目。

audiblez — 将电子书转换为有声书的工具。

Kokoro-82M — 一个拥有8200万参数的前沿文本到语音（TTS）模型。

VITA-1.5 — VITA-1.5: 实时视觉和语音交互的GPT-4o级多模态大语言模型

InternVL2-8B-MPO — 多模态大语言模型，提升多模态推理能力

Synthesys — AI内容生成平台，提供视频、语音和图像生成服务

FlagEval — 模型评测平台

Voxdazz — AI名人声音生成器，让文字变声音。

ElevenLabs Flash — 快速生成类人语音的TTS模型

Gemini 2.0 Flash Experimental — Google DeepMind开发的高性能AI模型

ChatHi — 多功能AI智能助手平台

LLaSA_training — LLaSA：扩展基于 LLaMA 的语音合成的训练时间和测试时间计算量