Make-An-Audio 2 es una tecnología de generación de audio a partir de texto basada en modelos de difusión, desarrollada conjuntamente por investigadores de la Universidad de Zhejiang, ByteDance y la Universidad China de Hong Kong. Esta tecnología utiliza modelos lingüísticos grandes preentrenados (LLM) para analizar el texto, optimizando la alineación semántica y la coherencia temporal, lo que mejora la calidad del audio generado. También incorpora un desruidor de difusión basado en un Transformer feed-forward para mejorar el rendimiento en la generación de audio de longitud variable y fortalecer la extracción de información temporal. Además, mediante el uso de LLM para convertir una gran cantidad de datos de etiquetas de audio en conjuntos de datos de texto de audio, se aborda el problema de la escasez de datos temporales.