Stable Audio Open es una tecnología capaz de generar audio estéreo de hasta 47 segundos a partir de indicaciones de texto. Incluye tres componentes principales: un autocodificador que comprime las formas de onda a una longitud de secuencia manejable, una incrustación de texto basada en T5 para el condicionamiento de texto, y un modelo de difusión basado en transformadores (DiT) que opera en el espacio latente del autocodificador. Esta tecnología destaca en la generación de audio, capaz de producir diversos tipos de audio según la indicación de texto, como percusión, música electrónica, sonidos naturales, etc.