MaskGCT

Modelo de conversión de texto a voz (TTS) de cero ejemplos que no requiere información de alineación.

Producto ComúnOtrosTexto a vozAprendizaje de cero ejemplos
MaskGCT es un innovador modelo de conversión de texto a voz (TTS) de cero ejemplos que resuelve los problemas existentes en los sistemas autorregresivo y no autorregresivo al eliminar la necesidad de información de alineación explícita y la predicción de duración a nivel de fonema. MaskGCT emplea un modelo de dos etapas: la primera etapa utiliza la predicción de texto para extraer etiquetas semánticas de un modelo de aprendizaje autosupervisado de voz (SSL); la segunda etapa, el modelo predice etiquetas acústicas basándose en estas etiquetas semánticas. MaskGCT sigue el paradigma de aprendizaje de enmascaramiento y predicción, aprendiendo durante el entrenamiento a predecir etiquetas semánticas o acústicas enmascaradas basadas en las condiciones y sugerencias dadas. Durante la inferencia, el modelo genera etiquetas de longitud especificada en paralelo. Los experimentos muestran que MaskGCT supera a los sistemas TTS de cero ejemplos más avanzados en cuanto a calidad, similitud y comprensibilidad.
Abrir sitio web

MaskGCT Situación del tráfico más reciente

Total de visitas mensuales

2187

Tasa de rebote

44.40%

Páginas promedio por visita

1.0

Duración promedio de la visita

00:00:00

MaskGCT Tendencia de visitas

MaskGCT Distribución geográfica de las visitas

MaskGCT Fuentes de tráfico

MaskGCT Alternativas