CosyVoice 2.0 : mise à niveau du grand modèle de génération vocale d'Alibaba

L'équipe vocale d'Alibaba Tongyi Lab a annoncé la mise à jour de son modèle de génération vocale open source CosyVoice à la version 2.0. Cette mise à jour marque une avancée significative en termes de précision, de stabilité et de naturalité de la synthèse vocale. CosyVoice 2.0, grâce à sa technologie de modèle de génération vocale unifiant les modes hors ligne et en streaming, permet une synthèse vocale bidirectionnelle en streaming, avec un délai de première synthèse pouvant atteindre 150 ms, améliorant ainsi considérablement la vitesse de réponse de la synthèse vocale.

微信截图_20241216105354.png

En termes de précision de prononciation, CosyVoice 2.0 affiche un taux d'erreur réduit de 30 % à 50 % par rapport à la version précédente. Il obtient le taux d'erreur de mots le plus bas à ce jour sur le jeu de tests difficiles du jeu de données Seed-TTS, excellant notamment dans la synthèse de virelangues, de mots polyphoniques et de mots rares. De plus, la version 2.0 maintient une cohérence de timbre dans la génération vocale zéro-shot et la synthèse vocale interlinguistique, avec une amélioration notable des capacités de synthèse vocale interlinguistique par rapport à la version 1.0.

CosyVoice 2.0 a également amélioré la rythmique, la qualité sonore et l'adéquation émotionnelle des sons synthétisés, le score MOS passant de 5,4 à 5,53, se rapprochant du score d'un certain modèle de synthèse vocale commercial. Parallèlement, la version 2.0 prend en charge un contrôle plus précis des émotions et des accents régionaux, offrant aux utilisateurs un choix linguistique plus riche, notamment le cantonais, le Sichuan, le Zhengzhou, le Tianjin et le Changsha, ainsi qu'une fonction de jeu de rôle, comme imiter la voix d'un robot ou de Peppa Pig.

La mise à jour de CosyVoice 2.0 améliore non seulement les performances techniques et l'expérience de la synthèse vocale, mais stimule également le développement de la communauté open source, encourageant davantage de développeurs à participer à l'innovation et aux applications des technologies de traitement de la parole.

Dépôt GitHub : CosyVoice (https://github.com/FunAudioLLM/CosyVoice) Consultez la dernière mise à jour de CosyVoice 2
Démo en ligne : https://www.modelscope.cn/studios/iic/CosyVoice2-0.5B
Code source : https://github.com/FunAudioLLM/CosyVoice
Modèle open source : https://www.modelscope.cn/models/iic/CosyVoice2-0.5B

Actualités IA

CosyVoice 2.0 : mise à niveau du grand modèle de génération vocale d'Alibaba

AIbase基地

Recommandations d'actualités IA connexes

Centre de calcul de Guangzhou intègre le grand modèle linguistique Tongyi Qianwen d'Alibaba QwQ-32B

Foxconn lance FoxBrain, le premier grand modèle d'inférence IA à Taïwan

Plateforme nationale d'internet de supercalcul intégrée au grand modèle linguistique Qwen d'Alibaba : API QwQ-32B disponible

Le grand modèle de raisonnement Ali Tongyi Qianwen QwQ-32B prend la tête du classement de la communauté open source mondiale