IndexTTS, un modèle de synthèse vocale (TTS) de style GPT basé sur XTTS et Tortoise, vient d'être officiellement lancé par Bilibili. Ce système possède une capacité unique de correction de la prononciation des caractères chinois en utilisant le pinyin, et permet un contrôle précis des pauses à n'importe quel endroit grâce à la ponctuation. Cette innovation technologique rend la synthèse vocale plus naturelle et fluide, suscitant un large intérêt.

QQ_1740637228105.png

Entraîné sur des dizaines de milliers d'heures de données, IndexTTS atteint des performances de pointe dans le secteur, surpassant les systèmes TTS populaires actuels tels que XTTS, CosyVoice2, Fish-Speech et F5-TTS. Plusieurs modules du système ont été améliorés, notamment la représentation des caractéristiques des conditions du haut-parleur et l'optimisation de la qualité audio. Grâce à une approche de modélisation hybride, IndexTTS corrige rapidement les lectures erronées des caractères chinois, améliorant ainsi l'expérience utilisateur.

QQ_1740637247097.png

Le modèle utilise un encodeur conditionnel de dernière génération et un décodeur vocal basé sur BigVGAN2, améliorant non seulement la stabilité de l'entraînement, mais aussi la similarité et la qualité du timbre. L'équipe a déclaré avoir soumis un article scientifique sur arXiv et prévoit de publier les paramètres du modèle et le code dans les prochaines semaines. De plus, IndexTTS fournit plusieurs ensembles de tests, incluant des vocabulaires polysyllabiques et des ensembles d'évaluation subjectifs et objectifs, pour permettre aux chercheurs une analyse approfondie.

IndexTTS a obtenu d'excellents résultats lors de plusieurs évaluations, surpassant de nombreux modèles concurrents en termes de taux d'erreur mot/caractère (WER) et de similarité du locuteur (SS). Par exemple, lors des tests en mandarin, le taux d'erreur mot/caractère d'IndexTTS n'est que de 1,3 %, bien inférieur à celui des autres modèles, démontrant ainsi sa grande précision et sa stabilité. Simultanément, le score MOS de la qualité audio d'IndexTTS a atteint 4,01, soulignant son excellente qualité et son timbre.

Avec les progrès technologiques constants et l'élargissement des scénarios d'application, le lancement d'IndexTTS marque une avancée significative dans la technologie de la synthèse vocale. Pour plus d'informations sur ce système, les utilisateurs peuvent contacter l'équipe concernée pour obtenir une expérience détaillée et un support technique.

Projet:https://github.com/index-tts/index-tts

Points clés:

🌟 IndexTTS est un modèle TTS de style GPT basé sur XTTS et Tortoise, capable de corriger la prononciation des caractères chinois et de contrôler les pauses.

📊 Entraîné sur des dizaines de milliers d'heures de données, le système surpasse plusieurs systèmes TTS populaires existants, démontrant des performances de pointe dans le secteur.

🔍 IndexTTS a obtenu d'excellents résultats lors de plusieurs évaluations, son taux d'erreur mot/caractère et sa qualité audio surpassant ceux des autres modèles, démontrant ainsi ses atouts considérables.