O modelo de texto para fala (TTS) IndexTTS, baseado em XTTS e Tortoise, com estilo GPT, foi oficialmente lançado pelo Bilibili (B站). Este sistema apresenta uma capacidade única de correção de pronúncia de caracteres chineses usando a romanização pinyin, além de permitir controle preciso de pausas em qualquer ponto através de pontuação. Essa tecnologia inovadora resulta em uma fala mais natural e fluente, chamando a atenção de muitos.
Treinado com dezenas de milhares de horas de dados, o sistema IndexTTS alcançou desempenho líder na indústria, superando sistemas TTS populares como XTTS, CosyVoice2, Fish-Speech e F5-TTS. Vários módulos do sistema foram aprimorados, especialmente em termos de representação de características de condição do alto-falante e otimização da qualidade de áudio. Através da modelagem híbrida, o IndexTTS corrige rapidamente a leitura incorreta de caracteres chineses, melhorando a experiência do usuário.
O modelo utiliza um codificador condicional de última geração e um decodificador de fala baseado em BigVGAN2, o que não só melhora a estabilidade do treinamento, mas também aumenta a similaridade e a qualidade do timbre da voz. A equipe afirma ter submetido um artigo relacionado ao arXiv e planeja liberar os parâmetros do modelo e o código nas próximas semanas. Além disso, o IndexTTS fornece vários conjuntos de testes, incluindo vocabulário polissilábico e conjuntos de avaliação subjetivos e objetivos, para análise aprofundada por pesquisadores.
Em vários testes, o IndexTTS apresentou excelente desempenho, superando muitos modelos concorrentes em termos de taxa de erro de palavras (WER) e similaridade do locutor (SS). Por exemplo, em testes em mandarim, a taxa de erro de palavras do IndexTTS foi de apenas 1,3%, muito abaixo do desempenho de outros modelos, demonstrando sua precisão e estabilidade. Simultaneamente, a pontuação MOS da qualidade de áudio do IndexTTS atingiu 4,01, mostrando sua excelente qualidade e timbre de áudio.
Com o avanço contínuo da tecnologia e a expansão dos cenários de aplicação, o lançamento do IndexTTS marca um avanço para a tecnologia de texto para fala. Para obter mais informações sobre o sistema, os usuários podem entrar em contato com a equipe para obter uma experiência de uso detalhada e suporte técnico.
Projeto:https://github.com/index-tts/index-tts
Destaques:
🌟 IndexTTS é um modelo TTS estilo GPT baseado em XTTS e Tortoise, capaz de corrigir a pronúncia de caracteres chineses e controlar pausas.
📊 O sistema foi treinado por dezenas de milhares de horas e supera vários sistemas TTS populares existentes, demonstrando desempenho líder na indústria.
🔍 IndexTTS apresentou excelente desempenho em vários testes, com taxa de erro de palavras e qualidade de áudio superiores a outros modelos, mostrando suas grandes vantagens.