CosyVoice 2 es un modelo de síntesis de voz desarrollado por el equipo SpeechLab@Tongyi de Alibaba Group. Se basa en el etiquetado discreto de voz supervisado y combina dos modelos generativos populares: modelos de lenguaje (LM) y coincidencia de flujo, logrando una alta naturalidad, coherencia de contenido y similitud de locutor en la síntesis de voz. Este modelo tiene una aplicación importante en los modelos de lenguaje de gran tamaño multimodales (LLM), especialmente en experiencias interactivas donde la latencia de respuesta y los factores en tiempo real son cruciales para la síntesis de voz. CosyVoice 2 mejora la utilización del código de las etiquetas de voz mediante la cuantificación escalar limitada, simplifica la arquitectura del modelo de lenguaje de texto a voz y diseña un modelo de coincidencia de flujo causal consciente de bloques para adaptarse a diferentes escenarios de síntesis. Entrenado en un conjunto de datos multilingües a gran escala, logra una calidad de síntesis comparable a la humana, con una latencia de respuesta extremadamente baja y capacidad en tiempo real.