Make-An-Audio 2

Tecnología de generación de audio a partir de texto basada en modelos de difusión.

Producto ComúnOtrosTexto a audioModelos de difusión
Make-An-Audio 2 es una tecnología de generación de audio a partir de texto basada en modelos de difusión, desarrollada conjuntamente por investigadores de la Universidad de Zhejiang, ByteDance y la Universidad China de Hong Kong. Esta tecnología utiliza modelos lingüísticos grandes preentrenados (LLM) para analizar el texto, optimizando la alineación semántica y la coherencia temporal, lo que mejora la calidad del audio generado. También incorpora un desruidor de difusión basado en un Transformer feed-forward para mejorar el rendimiento en la generación de audio de longitud variable y fortalecer la extracción de información temporal. Además, mediante el uso de LLM para convertir una gran cantidad de datos de etiquetas de audio en conjuntos de datos de texto de audio, se aborda el problema de la escasez de datos temporales.
Abrir sitio web

Make-An-Audio 2 Situación del tráfico más reciente

Total de visitas mensuales

67

Tasa de rebote

38.80%

Páginas promedio por visita

1.0

Duración promedio de la visita

00:00:00

Make-An-Audio 2 Tendencia de visitas

Make-An-Audio 2 Distribución geográfica de las visitas

Make-An-Audio 2 Fuentes de tráfico

Make-An-Audio 2 Alternativas