L'équipe vocale d'Alibaba Tongyi Lab a annoncé la mise à jour de son modèle de génération vocale open source CosyVoice à la version 2.0. Cette mise à jour marque une avancée significative en termes de précision, de stabilité et de naturalité de la synthèse vocale. CosyVoice 2.0, grâce à sa technologie de modèle de génération vocale unifiant les modes hors ligne et en streaming, permet une synthèse vocale bidirectionnelle en streaming, avec un délai de première synthèse pouvant atteindre 150 ms, améliorant ainsi considérablement la vitesse de réponse de la synthèse vocale.
En termes de précision de prononciation, CosyVoice 2.0 affiche un taux d'erreur réduit de 30 % à 50 % par rapport à la version précédente. Il obtient le taux d'erreur de mots le plus bas à ce jour sur le jeu de tests difficiles du jeu de données Seed-TTS, excellant notamment dans la synthèse de virelangues, de mots polyphoniques et de mots rares. De plus, la version 2.0 maintient une cohérence de timbre dans la génération vocale zéro-shot et la synthèse vocale interlinguistique, avec une amélioration notable des capacités de synthèse vocale interlinguistique par rapport à la version 1.0.
CosyVoice 2.0 a également amélioré la rythmique, la qualité sonore et l'adéquation émotionnelle des sons synthétisés, le score MOS passant de 5,4 à 5,53, se rapprochant du score d'un certain modèle de synthèse vocale commercial. Parallèlement, la version 2.0 prend en charge un contrôle plus précis des émotions et des accents régionaux, offrant aux utilisateurs un choix linguistique plus riche, notamment le cantonais, le Sichuan, le Zhengzhou, le Tianjin et le Changsha, ainsi qu'une fonction de jeu de rôle, comme imiter la voix d'un robot ou de Peppa Pig.
La mise à jour de CosyVoice 2.0 améliore non seulement les performances techniques et l'expérience de la synthèse vocale, mais stimule également le développement de la communauté open source, encourageant davantage de développeurs à participer à l'innovation et aux applications des technologies de traitement de la parole.
Dépôt GitHub : CosyVoice (https://github.com/FunAudioLLM/CosyVoice) Consultez la dernière mise à jour de CosyVoice 2
Démo en ligne : https://www.modelscope.cn/studios/iic/CosyVoice2-0.5B
Code source : https://github.com/FunAudioLLM/CosyVoice
Modèle open source : https://www.modelscope.cn/models/iic/CosyVoice2-0.5B