MaskGCT

无需对齐信息的零样本文本到语音转换模型

普通产品其他文本到语音零样本学习

MaskGCT是一个创新的零样本文本到语音转换（TTS）模型，它通过消除显式对齐信息和音素级持续时间预测的需求，解决了自回归和非自回归系统中存在的问题。MaskGCT采用两阶段模型：第一阶段使用文本预测从语音自监督学习（SSL）模型中提取的语义标记；第二阶段，模型根据这些语义标记预测声学标记。MaskGCT遵循掩码和预测的学习范式，在训练期间学习预测基于给定条件和提示的掩码语义或声学标记。在推理期间，模型以并行方式生成指定长度的标记。实验表明，MaskGCT在质量、相似性和可理解性方面超越了当前最先进的零样本TTS系统。

Best AI Websites & Tools

MaskGCT

MaskGCT 最新流量情况

MaskGCT 访问量趋势

MaskGCT 访问地理位置分布

MaskGCT 流量来源

MaskGCT 替代品

Kokoro-82M — 一个拥有8200万参数的前沿文本到语音（TTS）模型。

Synthesys — AI内容生成平台，提供视频、语音和图像生成服务

OuteTTS-0.2-500M — 高性能的文本到语音合成模型

OuteTTS — 一个实验性的文本到语音模型

OuteTTS-0.1-350M — 一款通过纯语言模型实现的文本到语音合成模型

Fish Speech — 语音合成工具，提供高质量的语音生成服务

MaskGCT TTS Demo — 基于MaskGCT模型的文本到语音演示

F5-TTS — 基于深度学习的高质量文本到语音合成模型

VALL-E 2 — 微软亚洲研究院开发的语音合成技术

OptiSpeech — 轻量级端到端文本到语音模型

Bailing-TTS — 生成高质量中文方言语音的大规模文本到语音模型。

ToucanTTS — 多语言可控文本到语音合成工具包

Seed-TTS — 高质量、多功能的语音合成模型系列

OpenVoice — 开源的实时语音克隆技术

X-Dyna — X-Dyna是一种基于扩散模型的零样本人类图像动画生成技术。

AI ContentCraft — AI ContentCraft 是一个多功能内容创作工具，集成了文本生成、语音合成和图像生成能力。

Hailuo AI Audio — Hailuo AI Audio是一款创建逼真语音的音频合成工具。

kokoro-onnx — 基于Kokoro和ONNX运行时的文本到语音（TTS）项目。

audiblez — 将电子书转换为有声书的工具。

Text to Santa Videos by Gan.AI — 个性化圣诞祝福视频制作平台

Sketch2Sound — 通过时间变化信号和声音模仿生成可控音频的模型

Voice Cursor — 一个展示Gemini 2.0原生音频能力的实验性文本编辑器

Voxdazz — AI名人声音生成器，让文字变声音。

ElevenLabs Flash — 快速生成类人语音的TTS模型

Gemini 2.0 Flash Experimental — Google DeepMind开发的高性能AI模型

CosyVoice 2 — 可扩展的流媒体语音合成技术，结合大型语言模型。

CosyVoice语音生成大模型2.0-0.5B — 高效、多语种的语音合成模型

Meta Motivo — 首款基于行为基础模型的虚拟物理人形代理控制工具