MaskGCT

Modelo de conversão de texto para fala (TTS) de amostra zero que não requer informações de alinhamento.

Produto ComumOutrosTexto para falaAprendizado de amostra zero
MaskGCT é um modelo inovador de conversão de texto para fala (TTS) de amostra zero que aborda os problemas existentes em sistemas autoregressivos e não autoregressivos, eliminando a necessidade de informações de alinhamento explícito e previsão de duração em nível de fonema. O MaskGCT emprega um modelo de duas etapas: na primeira etapa, as marcações semânticas extraídas do modelo de aprendizado autossupervisionado (SSL) de fala são previstas usando texto; na segunda etapa, o modelo prevê as marcações acústicas com base nessas marcações semânticas. O MaskGCT segue o paradigma de aprendizado de mascaramento e previsão, aprendendo a prever as marcações semânticas ou acústicas mascaradas com base em um determinado contexto e prompt durante o treinamento. Durante a inferência, o modelo gera marcações de comprimento especificado em paralelo. Os experimentos mostram que o MaskGCT supera os sistemas TTS de amostra zero atuais em termos de qualidade, similaridade e inteligibilidade.
Abrir Site

MaskGCT Situação do Tráfego Mais Recente

Total de Visitas Mensais

2187

Taxa de Rejeição

44.40%

Média de Páginas por Visita

1.0

Duração Média da Visita

00:00:00

MaskGCT Tendência de Visitas

MaskGCT Distribuição Geográfica das Visitas

MaskGCT Fontes de Tráfego

MaskGCT Alternativas