IndexTTS

Sistema de texto a voz (TTS) de muestra cero, eficiente y controlable de grado industrial

Producto ComúnProductividadSíntesis de vozInteligencia artificial
IndexTTS es un modelo de texto a voz (TTS) basado en el estilo GPT, principalmente desarrollado en base a XTTS y Tortoise. Puede corregir la pronunciación de los caracteres chinos mediante la pronunciación pinyin y controlar las pausas mediante signos de puntuación. Este sistema introduce un método de modelado mixto carácter-pinyin en escenarios chinos, mejorando significativamente la estabilidad del entrenamiento, la similitud del timbre y la calidad del sonido. Además, integra BigVGAN2 para optimizar la calidad del audio. El modelo se ha entrenado con decenas de miles de horas de datos, y su rendimiento supera a los sistemas TTS populares actuales, como XTTS, CosyVoice2 y F5-TTS. IndexTTS es adecuado para escenarios que requieren síntesis de voz de alta calidad, como asistentes de voz, audiolibros, etc. Su naturaleza de código abierto también lo hace adecuado para la investigación académica y las aplicaciones comerciales.
Abrir sitio web

IndexTTS Situación del tráfico más reciente

Total de visitas mensuales

474564576

Tasa de rebote

36.20%

Páginas promedio por visita

6.1

Duración promedio de la visita

00:06:34

IndexTTS Tendencia de visitas

IndexTTS Distribución geográfica de las visitas

IndexTTS Fuentes de tráfico

IndexTTS Alternativas