Make-An-Audio 2

Tecnologia de geração de áudio a partir de texto baseada em modelos de difusão.

Produto ComumOutrosTexto para ÁudioModelos de Difusão
Make-An-Audio 2 é uma tecnologia de geração de áudio a partir de texto baseada em modelos de difusão, desenvolvida em conjunto por pesquisadores da Universidade de Zhejiang, ByteDance e Universidade Chinesa de Hong Kong. A tecnologia utiliza modelos de linguagem grandes pré-treinados (LLMs) para analisar o texto, otimizando o alinhamento semântico e a consistência temporal, o que melhora a qualidade do áudio gerado. Ela também apresenta um desruidor de difusão baseado em Transformer feedforward para melhorar o desempenho da geração de áudio de comprimento variável e aprimorar a extração de informações temporais. Além disso, a utilização de LLMs para converter grandes conjuntos de dados de etiquetas de áudio em conjuntos de dados de texto de áudio resolve o problema da escassez de dados temporais.
Abrir Site

Make-An-Audio 2 Situação do Tráfego Mais Recente

Total de Visitas Mensais

67

Taxa de Rejeição

38.80%

Média de Páginas por Visita

1.0

Duração Média da Visita

00:00:00

Make-An-Audio 2 Tendência de Visitas

Make-An-Audio 2 Distribuição Geográfica das Visitas

Make-An-Audio 2 Fontes de Tráfego

Make-An-Audio 2 Alternativas