Make-An-Audio 2
Tecnología de generación de audio a partir de texto basada en modelos de difusión.
Producto ComúnOtrosTexto a audioModelos de difusión
Make-An-Audio 2 es una tecnología de generación de audio a partir de texto basada en modelos de difusión, desarrollada conjuntamente por investigadores de la Universidad de Zhejiang, ByteDance y la Universidad China de Hong Kong. Esta tecnología utiliza modelos lingüísticos grandes preentrenados (LLM) para analizar el texto, optimizando la alineación semántica y la coherencia temporal, lo que mejora la calidad del audio generado. También incorpora un desruidor de difusión basado en un Transformer feed-forward para mejorar el rendimiento en la generación de audio de longitud variable y fortalecer la extracción de información temporal. Además, mediante el uso de LLM para convertir una gran cantidad de datos de etiquetas de audio en conjuntos de datos de texto de audio, se aborda el problema de la escasez de datos temporales.
Make-An-Audio 2 Situación del tráfico más reciente
Total de visitas mensuales
67
Tasa de rebote
38.80%
Páginas promedio por visita
1.0
Duración promedio de la visita
00:00:00