Récemment, un système avancé de synthèse vocale nommé Spark-TTS a suscité de nombreuses discussions au sein de la communauté de l'IA. Selon les derniers posts sur X et les recherches associées, ce système se distingue par son clonage vocal zéro-shot et ses capacités de contrôle vocal granulaire, représentant une avancée majeure dans le domaine de la synthèse vocale.

QQ_1741231726997.png

Ce système tire pleinement parti des capacités des grands modèles linguistiques (LLM) pour produire une synthèse vocale hautement précise et naturelle, adaptée à la recherche et au commerce. La conception de Spark-TTS privilégie la simplicité et l'efficacité. Entièrement basé sur Qwen2.5, il élimine les processus complexes nécessitant la création de modèles supplémentaires. Contrairement à d'autres modèles, Spark-TTS reconstruit l'audio directement à partir du code prédit par le LLM, ce qui simplifie grandement le processus de génération audio, améliore l'efficacité et réduit la complexité technique.

Au-delà de ses capacités efficaces de génération audio, Spark-TTS possède une remarquable fonction de clonage vocal. Il prend en charge le clonage vocal zéro-shot, ce qui signifie qu'il peut reproduire la voix d'un locuteur même sans données d'entraînement spécifiques à ce locuteur.

Fonctionnalités principales de Spark-TTS :

Clonage vocal zéro-shot : génération du style vocal d'un locuteur sans données d'entraînement spécifiques, idéal pour les applications de personnalisation rapide.

Contrôle vocal granulaire : les utilisateurs peuvent ajuster précisément la vitesse et le ton, par exemple accélérer ou ralentir la parole, modifier la hauteur de la voix.

Génération multilingue : prend en charge plusieurs langues, dont l'anglais et le chinois, étendant ainsi son applicabilité à l'échelle mondiale.

Sa qualité vocale est jugée très naturelle, particulièrement adaptée à la création de livres audio, ce qui a été confirmé par les retours utilisateurs.

Architecture technique

Spark-TTS repose sur le codec audio BiCodec monoflux. Ce codec décompose la parole en deux types de marqueurs :

Des marqueurs sémantiques à faible débit binaire, responsables du contenu linguistique.

Des marqueurs globaux de longueur fixe, responsables des attributs du locuteur.

Cette méthode de séparation permet un ajustement flexible des caractéristiques vocales. Combinée à la technique de chaîne de pensée (Chain-of-Thought) de Qwen-2.5, elle améliore encore la qualité et la contrôlabilité de la génération vocale. Qwen-2.5 est un grand modèle linguistique (LLM) qui lui fournit de puissantes capacités de compréhension sémantique.

En termes de prise en charge linguistique, Spark-TTS excelle également. Il est capable de traiter simultanément le chinois et l'anglais, tout en maintenant un haut niveau de naturalité et de précision lors de la synthèse interlinguistique. De plus, les utilisateurs peuvent créer un locuteur virtuel adapté à leurs besoins en ajustant des paramètres tels que le sexe, le ton et la vitesse de la parole.

Projet : https://github.com/SparkAudio/Spark-TTS