MaskGCT
Modelo de conversão de texto para fala (TTS) de amostra zero que não requer informações de alinhamento.
Produto ComumOutrosTexto para falaAprendizado de amostra zero
MaskGCT é um modelo inovador de conversão de texto para fala (TTS) de amostra zero que aborda os problemas existentes em sistemas autoregressivos e não autoregressivos, eliminando a necessidade de informações de alinhamento explícito e previsão de duração em nível de fonema. O MaskGCT emprega um modelo de duas etapas: na primeira etapa, as marcações semânticas extraídas do modelo de aprendizado autossupervisionado (SSL) de fala são previstas usando texto; na segunda etapa, o modelo prevê as marcações acústicas com base nessas marcações semânticas. O MaskGCT segue o paradigma de aprendizado de mascaramento e previsão, aprendendo a prever as marcações semânticas ou acústicas mascaradas com base em um determinado contexto e prompt durante o treinamento. Durante a inferência, o modelo gera marcações de comprimento especificado em paralelo. Os experimentos mostram que o MaskGCT supera os sistemas TTS de amostra zero atuais em termos de qualidade, similaridade e inteligibilidade.
MaskGCT Situação do Tráfego Mais Recente
Total de Visitas Mensais
2187
Taxa de Rejeição
44.40%
Média de Páginas por Visita
1.0
Duração Média da Visita
00:00:00