Sketch2Soundは、解釈可能な時間変化制御信号(音量、輝度、ピッチ)とテキストプロンプトから高品質の音声を作成できるオーディオ生成モデルです。あらゆるテキストツーオーディオ潜在的拡散変換器(DiT)上で実装可能であり、40kステップのファインチューニングと制御ごとに単一の線形層のみが必要なため、ControlNetなどの既存手法よりも軽量です。Sketch2Soundの主な利点は、音声模倣からの任意の音声合成能力と、入力テキストプロンプトとオーディオ品質を維持しながら、入力制御のおおよその意図に従う点です。これにより、サウンドアーティストは、テキストプロンプトのセマンティックな柔軟性と、音声ジェスチャーや音声模倣の表現力と精度を組み合わせ、サウンドを作成できます。