Stable Audio Open ist eine Technologie, die bis zu 47 Sekunden lange Stereo-Audioaufnahmen aus Textprompts generiert. Sie besteht aus drei Hauptkomponenten: einem Autoencoder, der Wellenformen auf eine handhabbare Sequenzlänge komprimiert, einer auf T5 basierenden Textebetteung für textbasierte Konditionierung und einem transformationsbasierten Diffusionsmodell (DiT), das im latenten Raum des Autoencoders arbeitet. Die Technologie zeichnet sich durch hervorragende Audiogenerierung aus und kann verschiedene Arten von Audio, wie z. B. Schlagzeug, elektronische Musik und Naturgeräusche, basierend auf Textprompts erzeugen.