O Stable Audio Open é uma tecnologia capaz de gerar áudio estéreo de até 47 segundos a partir de prompts de texto. Ele contém três componentes principais: um autocodificador que comprime as formas de onda em sequências de comprimento gerenciável, uma incorporação de texto baseada em T5 para condicionamento de texto e um modelo de difusão baseado em transformadores (DiT) que opera no espaço latente do autocodificador. A tecnologia apresenta um desempenho excepcional na geração de áudio, capaz de produzir diversos tipos de áudio, como percussão, música eletrônica e sons naturais, com base em prompts de texto.