Récemment, une équipe de chercheurs de l'Université Jiao Tong de Shanghai, de l'Université de Cambridge et de l'Institut de recherche automobile Geely a présenté un nouveau système de synthèse vocale texte-à-parole (TTS) appelé F5-TTS. Ce système se distingue par son approche non autorégressive, combinant l'appariement de flux et le transformateur de diffusion (DiT), simplifiant ainsi les étapes complexes des modèles TTS traditionnels.
Comme chacun sait, les modèles TTS traditionnels nécessitent une modélisation complexe de la durée, un alignement phonétique et un codage textuel spécifique, ce qui augmente la complexité du processus de synthèse. Les modèles précédents, tels qu'E2TTS, souffraient souvent d'une lenteur de convergence et d'un alignement imprécis entre le texte et la parole, limitant ainsi leur efficacité dans des scénarios réels. F5-TTS a été conçu pour relever ces défis.
Le principe de fonctionnement de F5-TTS est simple : le texte d'entrée est d'abord traité par l'architecture ConvNeXt, facilitant son alignement avec la parole. Ensuite, la séquence de caractères complétée et une version bruitée de la parole d'entrée sont introduites dans le modèle.
L'entraînement du système repose sur le transformateur de diffusion (DiT), qui utilise l'appariement de flux pour mapper efficacement une distribution initiale simple à la distribution des données. De plus, F5-TTS introduit de manière innovante la stratégie d'échantillonnage Sway Sampling lors de l'inférence. Cette stratégie permet de prioriser les premières étapes du flux lors de l'inférence, améliorant ainsi l'alignement entre la parole générée et le texte d'entrée.
Selon les résultats de la recherche, F5-TTS surpasse de nombreux systèmes TTS actuels en termes de qualité de synthèse et de vitesse d'inférence. Sur l'ensemble de données LibriSpeech-PC, le taux d'erreur de mots (WER) du modèle atteint 2,42, et son facteur temps réel (RTF) lors de l'inférence est de 0,15, surpassant nettement le modèle de diffusion précédent E2TTS, qui présentait des faiblesses en termes de vitesse de traitement et de robustesse.
Parallèlement, la stratégie d'échantillonnage Sway Sampling améliore considérablement la naturalité et la compréhension de la parole générée, permettant au modèle de produire une génération fluide et expressive sans entraînement supplémentaire.
F5-TTS simplifie le processus en éliminant le besoin de prédiction de durée, d'alignement phonétique et de codage textuel explicite, améliorant ainsi la robustesse de l'alignement et la qualité de la synthèse. De plus, les chercheurs soulignent les considérations éthiques et proposent la mise en place de systèmes de filigrane et de détection pour prévenir toute utilisation abusive du modèle.
Accès au projet : https://github.com/SWivid/F5-TTS
Points clés :
🌟 F5-TTS est un nouveau système texte-à-parole non autorégressif qui simplifie la complexité des modèles TTS traditionnels.
⚡ Ce système utilise les architectures ConvNeXt et DiT pour améliorer l'alignement entre le texte et la parole, améliorant ainsi considérablement la qualité de la synthèse.
🔒 Les chercheurs soulignent la nécessité de prendre en compte les questions éthiques et recommandent l'introduction de mécanismes de filigrane et de détection pour prévenir les utilisations abusives potentielles.