FreGrad es un codificador de audio difusivo ligero y rápido, diseñado para generar audio realista. Su arquitectura incluye transformada wavelet discreta, convolución expansiva con percepción de frecuencia y una serie de técnicas para mejorar la calidad del modelo generado. En los experimentos, FreGrad demostró una velocidad de entrenamiento 3,7 veces superior, una velocidad de inferencia 2,2 veces superior y un tamaño de modelo 0,6 veces menor (solo 1,78 millones de parámetros) en comparación con los modelos de referencia, sin sacrificar la calidad de la salida.