Recientemente, un equipo de investigación de la Universidad Jiao Tong de Shanghai, la Universidad de Cambridge y el Instituto de Investigación de Geely Automobile presentó un nuevo sistema de texto a voz (TTS), llamado F5-TTS. Lo que distingue a este sistema es su enfoque no autorregresivo, que combina el emparejamiento de flujo con el transformador de difusión (DiT), simplificando con éxito los pasos complejos de los modelos TTS tradicionales.
Como sabemos, los modelos TTS tradicionales suelen requerir un modelado de duración complejo, alineación de fonemas y codificación de texto específica, lo que aumenta la complejidad del proceso de síntesis. Modelos anteriores, como E2TTS, a menudo enfrentaban problemas de lenta convergencia y alineación inexacta entre texto y voz, dificultando su aplicación eficiente en escenarios reales. F5-TTS surge para abordar estos desafíos.
El funcionamiento de F5-TTS es sencillo: primero, procesa el texto de entrada a través de la arquitectura ConvNeXt, facilitando la alineación con el habla. Luego, la secuencia de caracteres rellenada se introduce en el modelo junto con una versión con ruido de la voz de entrada.
El entrenamiento del sistema se basa en el Transformador de Difusión (DiT), que utiliza el emparejamiento de flujo para mapear eficazmente una distribución inicial simple a la distribución de datos. Además, F5-TTS introduce de forma innovadora la estrategia de muestreo Sway Sampling durante la inferencia, que prioriza los pasos de flujo iniciales en la etapa de inferencia, mejorando la alineación entre la voz generada y el texto de entrada.
Según los resultados de la investigación, F5-TTS supera a muchos sistemas TTS actuales en cuanto a calidad de síntesis y velocidad de inferencia. En el conjunto de datos LibriSpeech-PC, el modelo alcanzó una tasa de error de palabras (WER) del 2,42 y un factor de tiempo real (RTF) de 0,15 durante la inferencia, superando significativamente al modelo de difusión anterior E2TTS, que presentaba deficiencias en velocidad de procesamiento y robustez.
Asimismo, la estrategia de Sway Sampling mejora significativamente la naturalidad y la inteligibilidad del habla generada, permitiendo una generación fluida y expresiva incluso sin entrenamiento.
F5-TTS simplifica el proceso, eliminando la necesidad de predicción de duración, alineación de fonemas y codificación de texto explícita, mejorando la robustez de la alineación y la calidad de la síntesis. Además, los investigadores destacan la importancia de las consideraciones éticas y proponen la creación de sistemas de marcas de agua y detección para prevenir el mal uso del modelo.
Enlace al proyecto: https://github.com/SWivid/F5-TTS
Puntos clave:
🌟 F5-TTS es un nuevo sistema de texto a voz no autorregresivo que simplifica la complejidad de los modelos TTS tradicionales.
⚡ El sistema utiliza las arquitecturas ConvNeXt y DiT para mejorar la alineación entre texto y voz, mejorando significativamente la calidad de la síntesis.
🔒 Los investigadores destacan la necesidad de abordar las cuestiones éticas y recomiendan la introducción de mecanismos de marcas de agua y detección para prevenir posibles abusos.