OuteTTS-0.1-350M

一款通过纯语言模型实现的文本到语音合成模型

普通产品生产力文本到语音语音合成

OuteTTS-0.1-350M是一款基于纯语言模型的文本到语音合成技术，它不需要外部适配器或复杂架构，通过精心设计的提示和音频标记实现高质量的语音合成。该模型基于LLaMa架构，使用350M参数，展示了直接使用语言模型进行语音合成的潜力。它通过三个步骤处理音频：使用WavTokenizer进行音频标记化、CTC强制对齐创建精确的单词到音频标记映射、以及遵循特定格式的结构化提示创建。OuteTTS的主要优点包括纯语言建模方法、声音克隆能力、与llama.cpp和GGUF格式的兼容性。

打开网站

OuteTTS-0.1-350M 最新流量情况

月总访问量

1049

跳出率

40.94%

平均页面访问数

1.2

平均访问时长

00:00:13

OuteTTS-0.1-350M 访问量趋势

OuteTTS-0.1-350M 访问地理位置分布

AI资讯

AI日报

AI时间线

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图

OuteTTS-0.1-350M

OuteTTS-0.1-350M 最新流量情况

OuteTTS-0.1-350M 访问量趋势

OuteTTS-0.1-350M 访问地理位置分布

OuteTTS-0.1-350M 流量来源

OuteTTS-0.1-350M 替代品

OuteTTS-0.1-350M — 一款通过纯语言模型实现的文本到语音合成模型

CSM 1B — CSM 1B 是一个由 Sesame 开发的文本到语音生成模型，可生成高质量的音频。

Llasa-3B — Llasa-3B 是一个基于 LLaMA 的文本到语音合成模型，支持中英文语音生成。

Kokoro-82M — 一个拥有8200万参数的前沿文本到语音（TTS）模型。

Synthesys — AI内容生成平台，提供视频、语音和图像生成服务

OuteTTS-0.2-500M — 高性能的文本到语音合成模型

OuteTTS — 一个实验性的文本到语音模型

Fish Speech — 语音合成工具，提供高质量的语音生成服务

MaskGCT TTS Demo — 基于MaskGCT模型的文本到语音演示

MaskGCT — 无需对齐信息的零样本文本到语音转换模型

F5-TTS — 基于深度学习的高质量文本到语音合成模型

VALL-E 2 — 微软亚洲研究院开发的语音合成技术

OptiSpeech — 轻量级端到端文本到语音模型

Bailing-TTS — 生成高质量中文方言语音的大规模文本到语音模型。

ToucanTTS — 多语言可控文本到语音合成工具包

Seed-TTS — 高质量、多功能的语音合成模型系列

Fin-R1 — 通过强化学习驱动的金融推理大模型。

OpenAI.fm — 开发者可互动体验 OpenAI API 中的新语音模型gpt-4o-transcribe， gpt-4o-mini-transcribe and gpt-4o-mini-tts。

Orpheus TTS — 一个开源文本转语音系统，致力于实现人类语音的自然化。

Sesame CSM — 一个用于生成对话式语音的模型，支持从文本和音频输入生成高质量的语音。

Sesame AI — Sesame AI 是一款先进的语音合成平台，能够生成自然对话式语音并具备情感智能。

Jamba 1.6 — AI21推出的Jamba 1.6模型，专为企业私有部署设计，具备卓越的长文本处理能力。

Inception Labs — Inception Labs 推出新一代扩散式大语言模型，提供极速、高效和高质量的语言生成能力。

OpenManus — OpenManus 是一个无需邀请码即可使用的开源智能代理项目。

Spark-TTS — Spark-TTS 是一种基于大语言模型的高效单流解耦语音合成模型。

Instella — Instella 是由 AMD 开发的高性能开源语言模型，专为加速开源语言模型的发展而设计。

Llasa — 基于Llama框架的TTS基础模型，兼容16万小时标记化语音数据。

Octave TTS — Octave TTS 是首个能够理解文本含义的语音合成模型，能够生成富有情感和风格的语音。

IndexTTS — 工业级可控高效的零样本文本到语音系统

GPT-4.5 — OpenAI推出的最新语言模型GPT-4.5，专注于提升无监督学习能力，提供更自然的交互体验。