Récemment, Quwan Technology a lancé un nouveau modèle de synthèse vocale (TTS) appelé MaskGCT. Ce modèle a réalisé des percées significatives en termes de qualité vocale, de similarité et de contrôlabilité, bouleversant complètement les méthodes traditionnelles de synthèse vocale (TTS) et permettant à l'IA de se libérer de la dépendance à l'annotation manuelle, réalisant ainsi un véritable "apprentissage autonome".
Les systèmes TTS traditionnels, comme un enfant gâté, nécessitent une instruction manuelle, mot à mot : alignement du texte et de la voix, prédiction de la durée de chaque syllabe, avant de pouvoir synthétiser la voix de manière hésitante. Cette méthode est non seulement inefficace, mais la voix générée manque également de fluidité et de rythme naturel.
MaskGCT, le nouveau modèle de Quwan Technology, abandonne complètement cette ancienne méthode. Il adopte une architecture de transcodeur génératif masqué Transformer. En termes simples, il utilise un modèle similaire à BERT pour convertir la voix en caractéristiques sémantiques, puis utilise un autre modèle pour prédire les caractéristiques acoustiques à partir de ces caractéristiques sémantiques, et enfin synthétiser la voix.
Le principal avantage de cette méthode est qu'elle ne nécessite aucune annotation manuelle. Il utilise directement 100 000 heures de données vocales non annotées pour entraîner le modèle, permettant au modèle d'apprendre lui-même la correspondance entre le texte et la voix à partir d'un volume massif de données.
C'est comme si l'on plaçait un enfant dans un environnement linguistique pour qu'il apprenne par lui-même et qu'il maîtrise naturellement la langue.
Un autre atout de MaskGCT est sa capacité à contrôler la durée de la voix avec autant de flexibilité qu'un humain, accélérant ou ralentissant à volonté. C'est une véritable aubaine pour le doublage ou l'édition vocale.
Les résultats expérimentaux confirment les performances de MaskGCT. En termes de qualité vocale, de similarité, de rythme et de clarté, il surpasse tous les systèmes TTS existants, atteignant même un niveau comparable à celui d'un humain.
Plus impressionnant encore, MaskGCT peut non seulement générer des voix de haute qualité, mais aussi imiter le style de différents locuteurs, et même effectuer des traductions vocales interlinguistiques. C'est un véritable couteau suisse.
Bien sûr, MaskGCT présente encore quelques limitations, par exemple, il peut présenter des défauts lors du traitement de la synthèse vocale avec des mouvements faciaux importants. Mais ces imperfections n'entachent en rien ses qualités. L'apparition de MaskGCT ouvre sans aucun doute de nouvelles perspectives pour le domaine de la TTS et offre un potentiel infini pour l'interaction homme-machine.
Démo en ligne : https://huggingface.co/spaces/amphion/maskgct
Adresse du projet : https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct
Adresse du site web : https://voice.funnycp.com/