Se ha lanzado oficialmente IndexTTS, un modelo de texto a voz (TTS) de estilo GPT basado en XTTS y Tortoise, desarrollado por Bilibili (B站). Este sistema cuenta con una capacidad única de corrección de la pronunciación de caracteres chinos mediante la corrección de la pronunciación pinyin, y permite un control preciso de las pausas en cualquier posición mediante signos de puntuación. Esta innovadora tecnología proporciona una voz más natural y fluida, atrayendo una gran atención.
Entrenado con decenas de miles de horas de datos, IndexTTS ha logrado un rendimiento líder en la industria, superando a sistemas TTS populares como XTTS, CosyVoice2, Fish-Speech y F5-TTS. Se han mejorado varios módulos del sistema, especialmente en la representación de características de las condiciones del altavoz y la optimización de la calidad del audio. Mediante la introducción del modelado mixto, IndexTTS corrige rápidamente la lectura errónea de caracteres chinos, mejorando la experiencia del usuario.
El modelo utiliza un codificador condicional de última generación y un descodificador de voz basado en BigVGAN2, lo que no solo mejora la estabilidad del entrenamiento, sino que también aumenta la similitud y la calidad del timbre de la voz. El equipo ha presentado un artículo relacionado en arXiv y planea publicar los parámetros y el código del modelo en las próximas semanas. Además, IndexTTS proporciona varios conjuntos de pruebas, incluyendo vocabulario polisilábico y conjuntos de evaluación subjetivos y objetivos, para que los investigadores realicen análisis en profundidad.
En varias evaluaciones, IndexTTS ha demostrado un excelente rendimiento, superando a muchos modelos de la competencia, especialmente en la tasa de error de palabras (WER) y la similitud del hablante (SS). Por ejemplo, en las pruebas de mandarín, la tasa de error de palabras de IndexTTS fue solo del 1.3%, muy por debajo del rendimiento de otros modelos, lo que demuestra su gran precisión y estabilidad. Simultáneamente, en la evaluación de la calidad del sonido, la puntuación MOS de IndexTTS alcanzó 4.01, mostrando su excelente calidad y timbre de sonido.
Con el continuo progreso de la tecnología y la expansión de las aplicaciones, el lanzamiento de IndexTTS marca un avance hacia un nivel superior en la tecnología de texto a voz. Para obtener más información sobre este sistema, los usuarios pueden ponerse en contacto con el equipo correspondiente para obtener una experiencia de uso detallada y soporte técnico.
Proyecto:https://github.com/index-tts/index-tts
Puntos clave:
🌟 IndexTTS es un modelo TTS de estilo GPT basado en XTTS y Tortoise, capaz de corregir la pronunciación de caracteres chinos y controlar las pausas.
📊 El sistema, entrenado con decenas de miles de horas de datos, supera a varios sistemas TTS populares existentes, mostrando un rendimiento líder en la industria.
🔍 IndexTTS ha obtenido excelentes resultados en varias evaluaciones, con tasas de error de palabras y calidad de sonido superiores a las de otros modelos, lo que demuestra sus grandes ventajas.