Stable Audio Open 1.0 ist ein KI-Modell, das Autoencoder, T5-basierte Texte-Einbettungen und ein Transformer-basiertes Diffusionsmodell verwendet, um bis zu 47 Sekunden lange Stereo-Audiodaten zu generieren. Es erzeugt Musik und Audio basierend auf Text-Prompts und unterstützt Forschung und Experimente, um die aktuellen Fähigkeiten generativer KI-Modelle zu erforschen. Das Modell wurde auf den Datensätzen Freesound und Free Music Archive (FMA) trainiert, um die Diversität und die rechtliche Zulässigkeit der Daten sicherzustellen.