Recentemente, uma equipe de pesquisa da Universidade Jiao Tong de Xangai, da Universidade de Cambridge e do Instituto de Pesquisa da Geely Automobile lançou um novo sistema de texto para fala (TTS), chamado F5-TTS. O que diferencia este sistema é sua abordagem não auto-regressiva, combinando correspondência de fluxo com o Transformador de Difusão (DiT), simplificando com sucesso etapas complexas em modelos TTS tradicionais.

image.png

Como sabemos, os modelos TTS tradicionais geralmente exigem modelagem de duração complexa, alinhamento de fonemas e codificação de texto especializada, aumentando a complexidade do processo de síntese. Modelos anteriores, como o E2TTS, frequentemente enfrentavam problemas de lentidão na convergência e desalinhamento entre texto e fala, dificultando seu uso eficiente em cenários reais. O F5-TTS foi desenvolvido para superar esses desafios.

O princípio de funcionamento do F5-TTS é simples: primeiro, o texto de entrada é processado pela arquitetura ConvNeXt, facilitando o alinhamento com a fala. Em seguida, a sequência de caracteres preenchida e uma versão com ruído da fala de entrada são inseridas no modelo.

O treinamento do sistema depende do Transformador de Difusão (DiT), que mapeia eficientemente uma distribuição inicial simples para uma distribuição de dados por meio de correspondência de fluxo. Além disso, o F5-TTS introduz inovadoramente a estratégia de Amostragem Sway durante a inferência, que prioriza os passos iniciais do fluxo durante a inferência, melhorando o alinhamento entre a fala gerada e o texto de entrada.

De acordo com os resultados da pesquisa, o F5-TTS superou muitos sistemas TTS atuais em termos de qualidade de síntese e velocidade de inferência. No conjunto de dados LibriSpeech-PC, o modelo alcançou uma taxa de erro de palavras (WER) de 2,42 e um fator de tempo real (RTF) de 0,15 durante a inferência, superando significativamente o modelo de difusão anterior E2TTS, que apresentava deficiências em velocidade de processamento e robustez.

image.png

Além disso, a estratégia de Amostragem Sway melhorou significativamente a naturalidade e a inteligibilidade da fala gerada, permitindo que o modelo gerasse fala fluente e expressiva sem treinamento adicional.

O F5-TTS simplifica o processo, eliminando a necessidade de previsão de duração, alinhamento de fonemas e codificação de texto explícita, melhorando a robustez do alinhamento e a qualidade da síntese. Além disso, os pesquisadores enfatizam as considerações éticas, sugerindo a criação de sistemas de marca d'água e detecção para evitar o mau uso do modelo.

Link do projeto: https://github.com/SWivid/F5-TTS

Destaques:

🌟 F5-TTS é um novo sistema de texto para fala não auto-regressivo que simplifica a complexidade dos modelos TTS tradicionais.

⚡ O sistema utiliza as arquiteturas ConvNeXt e DiT, melhorando o alinhamento entre texto e fala e melhorando significativamente a qualidade da síntese.

🔒 Os pesquisadores enfatizam a necessidade de considerar questões éticas e sugerem a introdução de mecanismos de marca d'água e detecção para prevenir o uso indevido.