IndexTTS
Sistema de texto a voz (TTS) de muestra cero, eficiente y controlable de grado industrial
Producto ComúnProductividadSíntesis de vozInteligencia artificial
IndexTTS es un modelo de texto a voz (TTS) basado en el estilo GPT, principalmente desarrollado en base a XTTS y Tortoise. Puede corregir la pronunciación de los caracteres chinos mediante la pronunciación pinyin y controlar las pausas mediante signos de puntuación. Este sistema introduce un método de modelado mixto carácter-pinyin en escenarios chinos, mejorando significativamente la estabilidad del entrenamiento, la similitud del timbre y la calidad del sonido. Además, integra BigVGAN2 para optimizar la calidad del audio. El modelo se ha entrenado con decenas de miles de horas de datos, y su rendimiento supera a los sistemas TTS populares actuales, como XTTS, CosyVoice2 y F5-TTS. IndexTTS es adecuado para escenarios que requieren síntesis de voz de alta calidad, como asistentes de voz, audiolibros, etc. Su naturaleza de código abierto también lo hace adecuado para la investigación académica y las aplicaciones comerciales.
IndexTTS Situación del tráfico más reciente
Total de visitas mensuales
474564576
Tasa de rebote
36.20%
Páginas promedio por visita
6.1
Duración promedio de la visita
00:06:34