CosyVoice 2
Technologie de synthèse vocale en streaming évolutive, combinée à un grand modèle linguistique.
Produit OrdinaireProductivitéSynthèse vocaleStreaming
CosyVoice 2 est un modèle de synthèse vocale développé par l'équipe SpeechLab@Tongyi d'Alibaba Group. Basé sur l'étiquetage discret supervisé de la parole et combinant deux modèles génératifs populaires – les modèles linguistiques (LLM) et l'appariement de flux – il permet une synthèse vocale de haute qualité naturelle, avec une cohérence du contenu et une similarité de locuteur élevée. Ce modèle joue un rôle important dans les grands modèles linguistiques multimodaux (LLM), notamment dans les expériences interactives où la latence de réponse et les facteurs temps réel sont cruciaux pour la synthèse vocale. CosyVoice 2 améliore l'utilisation du codebook des marqueurs vocaux grâce à la quantification scalaire limitée, simplifie l'architecture du modèle linguistique texte-parole et conçoit un modèle d'appariement de flux causal sensible au contexte pour s'adapter à différents scénarios de synthèse. Entraîné sur un ensemble de données multilingues à grande échelle, il atteint une qualité de synthèse comparable à celle d'un humain, avec une latence extrêmement faible et une fonctionnalité en temps réel.
CosyVoice 2 Dernière situation du trafic
Nombre total de visites mensuelles
63960
Taux de rebond
57.97%
Nombre moyen de pages par visite
1.4
Durée moyenne de la visite
00:00:54