Recientemente, Oute AI lanzó un novedoso método de síntesis de texto a voz llamado OuteTTS-0.1-350M. Este método utiliza un modelado de lenguaje puro, sin adaptadores externos ni arquitecturas complejas, ofreciendo un método TTS simplificado. OuteTTS-0.1-350M se basa en la arquitectura LLaMa y utiliza WavTokenizer para generar directamente etiquetas de audio, lo que hace que el proceso sea más eficiente.

El modelo cuenta con una función de clonación de voz de muestra cero; solo necesita unos segundos de audio de referencia para replicar una nueva voz. OuteTTS-0.1-350M está diseñado para el rendimiento de los dispositivos y es compatible con llama.cpp, lo que lo convierte en una opción ideal para aplicaciones en tiempo real. A pesar de que el tamaño del modelo es relativamente pequeño (350 millones de parámetros), su rendimiento es comparable al de sistemas TTS más grandes y complejos.

La accesibilidad y eficiencia de OuteTTS-0.1-350M lo hacen adecuado para una amplia gama de aplicaciones, incluyendo asistentes personalizados, audiolibros y localización de contenido. Oute AI lo publica bajo la licencia CC-BY, alentando la experimentación adicional y la integración en diferentes proyectos para democratizar la tecnología TTS avanzada.

QQ20241106-112430.png

El lanzamiento de OuteTTS-0.1-350M marca un paso clave en la tecnología de texto a voz, utilizando una arquitectura simplificada para ofrecer una síntesis de voz de alta calidad con los mínimos requisitos de cálculo. Integra la arquitectura LLaMa, utiliza WavTokenizer y puede realizar la clonación de voz de muestra cero sin adaptadores complejos, lo que lo diferencia de los modelos TTS tradicionales.

Dirección: https://www.outeai.com/blog/OuteTTS-0.1-350M