Récemment, Oute AI a publié une nouvelle méthode de synthèse vocale à partir de texte, appelée OuteTTS-0.1-350M. Cette méthode utilise la modélisation linguistique pure, sans adaptateur externe ni architecture complexe, offrant ainsi une approche TTS simplifiée. OuteTTS-0.1-350M est basé sur l'architecture LLaMa et utilise WavTokenizer pour générer directement les marqueurs audio, rendant le processus plus efficace.

Ce modèle possède une fonction de clonage vocal à échantillon zéro ; quelques secondes d'audio de référence suffisent pour reproduire une nouvelle voix. OuteTTS-0.1-350M est conçu pour les performances des appareils et est compatible avec llama.cpp, ce qui en fait un choix idéal pour les applications en temps réel. Bien que la taille des paramètres du modèle soit relativement petite (350 millions), ses performances sont comparables à celles des systèmes TTS plus grands et plus complexes.

L'accessibilité et l'efficacité d'OuteTTS-0.1-350M le rendent adapté à un large éventail d'applications, notamment les assistants personnalisés, les livres audio et la localisation de contenu. Oute AI le publie sous licence CC-BY, encourageant ainsi les expérimentations et l'intégration dans différents projets pour démocratiser les technologies TTS avancées.

QQ20241106-112430.png

La publication d'OuteTTS-0.1-350M marque une avancée majeure dans la technologie de synthèse vocale : il utilise une architecture simplifiée pour fournir une synthèse vocale de haute qualité avec des exigences de calcul minimales. Son intégration de l'architecture LLaMa, l'utilisation de WavTokenizer et sa capacité à effectuer un clonage vocal à échantillon zéro sans adaptateurs complexes le distinguent des modèles TTS traditionnels.

Adresse : https://www.outeai.com/blog/OuteTTS-0.1-350M