Stable Audio Open は、テキストプロンプトから最長47秒のステレオオーディオを生成できる技術です。主な3つのコンポーネントから構成されています。波形を管理可能なシーケンス長に圧縮するオートエンコーダー、テキスト条件付けのためのT5ベースのテキスト埋め込み、そしてオートエンコーダーの潜在空間で動作する変換ベースの拡散(DiT)モデルです。本技術はオーディオ生成において優れた性能を発揮し、ドラム、エレクトロニックミュージック、自然音など、テキストプロンプトに基づいて様々な種類のオーディオを生成できます。