Make-An-Audio 2
Tecnologia de geração de áudio a partir de texto baseada em modelos de difusão.
Produto ComumOutrosTexto para ÁudioModelos de Difusão
Make-An-Audio 2 é uma tecnologia de geração de áudio a partir de texto baseada em modelos de difusão, desenvolvida em conjunto por pesquisadores da Universidade de Zhejiang, ByteDance e Universidade Chinesa de Hong Kong. A tecnologia utiliza modelos de linguagem grandes pré-treinados (LLMs) para analisar o texto, otimizando o alinhamento semântico e a consistência temporal, o que melhora a qualidade do áudio gerado. Ela também apresenta um desruidor de difusão baseado em Transformer feedforward para melhorar o desempenho da geração de áudio de comprimento variável e aprimorar a extração de informações temporais. Além disso, a utilização de LLMs para converter grandes conjuntos de dados de etiquetas de áudio em conjuntos de dados de texto de áudio resolve o problema da escassez de dados temporais.
Make-An-Audio 2 Situação do Tráfego Mais Recente
Total de Visitas Mensais
67
Taxa de Rejeição
38.80%
Média de Páginas por Visita
1.0
Duração Média da Visita
00:00:00