Se ha lanzado oficialmente IndexTTS, un modelo de texto a voz (TTS) de estilo GPT basado en XTTS y Tortoise, desarrollado por Bilibili (B站). Este sistema cuenta con una capacidad única de corrección de la pronunciación de caracteres chinos mediante la corrección de la pronunciación pinyin, y permite un control preciso de las pausas en cualquier posición mediante signos de puntuación. Esta innovadora tecnología proporciona una voz más natural y fluida, atrayendo una gran atención.

QQ_1740637228105.png

Entrenado con decenas de miles de horas de datos, IndexTTS ha logrado un rendimiento líder en la industria, superando a sistemas TTS populares como XTTS, CosyVoice2, Fish-Speech y F5-TTS. Se han mejorado varios módulos del sistema, especialmente en la representación de características de las condiciones del altavoz y la optimización de la calidad del audio. Mediante la introducción del modelado mixto, IndexTTS corrige rápidamente la lectura errónea de caracteres chinos, mejorando la experiencia del usuario.

QQ_1740637247097.png

El modelo utiliza un codificador condicional de última generación y un descodificador de voz basado en BigVGAN2, lo que no solo mejora la estabilidad del entrenamiento, sino que también aumenta la similitud y la calidad del timbre de la voz. El equipo ha presentado un artículo relacionado en arXiv y planea publicar los parámetros y el código del modelo en las próximas semanas. Además, IndexTTS proporciona varios conjuntos de pruebas, incluyendo vocabulario polisilábico y conjuntos de evaluación subjetivos y objetivos, para que los investigadores realicen análisis en profundidad.

En varias evaluaciones, IndexTTS ha demostrado un excelente rendimiento, superando a muchos modelos de la competencia, especialmente en la tasa de error de palabras (WER) y la similitud del hablante (SS). Por ejemplo, en las pruebas de mandarín, la tasa de error de palabras de IndexTTS fue solo del 1.3%, muy por debajo del rendimiento de otros modelos, lo que demuestra su gran precisión y estabilidad. Simultáneamente, en la evaluación de la calidad del sonido, la puntuación MOS de IndexTTS alcanzó 4.01, mostrando su excelente calidad y timbre de sonido.

Con el continuo progreso de la tecnología y la expansión de las aplicaciones, el lanzamiento de IndexTTS marca un avance hacia un nivel superior en la tecnología de texto a voz. Para obtener más información sobre este sistema, los usuarios pueden ponerse en contacto con el equipo correspondiente para obtener una experiencia de uso detallada y soporte técnico.

Proyecto:https://github.com/index-tts/index-tts

Puntos clave:

🌟 IndexTTS es un modelo TTS de estilo GPT basado en XTTS y Tortoise, capaz de corregir la pronunciación de caracteres chinos y controlar las pausas.   

📊 El sistema, entrenado con decenas de miles de horas de datos, supera a varios sistemas TTS populares existentes, mostrando un rendimiento líder en la industria.   

🔍 IndexTTS ha obtenido excelentes resultados en varias evaluaciones, con tasas de error de palabras y calidad de sonido superiores a las de otros modelos, lo que demuestra sus grandes ventajas.