MaskGCT
Modelo de conversión de texto a voz (TTS) de cero ejemplos que no requiere información de alineación.
Producto ComúnOtrosTexto a vozAprendizaje de cero ejemplos
MaskGCT es un innovador modelo de conversión de texto a voz (TTS) de cero ejemplos que resuelve los problemas existentes en los sistemas autorregresivo y no autorregresivo al eliminar la necesidad de información de alineación explícita y la predicción de duración a nivel de fonema. MaskGCT emplea un modelo de dos etapas: la primera etapa utiliza la predicción de texto para extraer etiquetas semánticas de un modelo de aprendizaje autosupervisado de voz (SSL); la segunda etapa, el modelo predice etiquetas acústicas basándose en estas etiquetas semánticas. MaskGCT sigue el paradigma de aprendizaje de enmascaramiento y predicción, aprendiendo durante el entrenamiento a predecir etiquetas semánticas o acústicas enmascaradas basadas en las condiciones y sugerencias dadas. Durante la inferencia, el modelo genera etiquetas de longitud especificada en paralelo. Los experimentos muestran que MaskGCT supera a los sistemas TTS de cero ejemplos más avanzados en cuanto a calidad, similitud y comprensibilidad.
MaskGCT Situación del tráfico más reciente
Total de visitas mensuales
2187
Tasa de rebote
44.40%
Páginas promedio por visita
1.0
Duración promedio de la visita
00:00:00