CosyVoice 2

Technologie de synthèse vocale en streaming évolutive, combinée à un grand modèle linguistique.

Produit OrdinaireProductivitéSynthèse vocaleStreaming
CosyVoice 2 est un modèle de synthèse vocale développé par l'équipe SpeechLab@Tongyi d'Alibaba Group. Basé sur l'étiquetage discret supervisé de la parole et combinant deux modèles génératifs populaires – les modèles linguistiques (LLM) et l'appariement de flux – il permet une synthèse vocale de haute qualité naturelle, avec une cohérence du contenu et une similarité de locuteur élevée. Ce modèle joue un rôle important dans les grands modèles linguistiques multimodaux (LLM), notamment dans les expériences interactives où la latence de réponse et les facteurs temps réel sont cruciaux pour la synthèse vocale. CosyVoice 2 améliore l'utilisation du codebook des marqueurs vocaux grâce à la quantification scalaire limitée, simplifie l'architecture du modèle linguistique texte-parole et conçoit un modèle d'appariement de flux causal sensible au contexte pour s'adapter à différents scénarios de synthèse. Entraîné sur un ensemble de données multilingues à grande échelle, il atteint une qualité de synthèse comparable à celle d'un humain, avec une latence extrêmement faible et une fonctionnalité en temps réel.
Ouvrir le site Web

CosyVoice 2 Dernière situation du trafic

Nombre total de visites mensuelles

63960

Taux de rebond

57.97%

Nombre moyen de pages par visite

1.4

Durée moyenne de la visite

00:00:54

CosyVoice 2 Tendance des visites

CosyVoice 2 Distribution géographique des visites

CosyVoice 2 Sources de trafic

CosyVoice 2 Alternatives