NVIDIA製！AIオーディオモデルFugatto：テキストや音声を入力して音楽や効果音を作成

音楽とサウンドクリエーションの分野では、テクノロジーと創造性の融合は常に多くの課題に直面してきました。既存のAIモデルは特定のタスクにしか長けておらず、幅広い適応性に欠けているため、音楽制作におけるAIの補助的な役割は限定的でした。AIを音楽とオーディオ制作により効果的に活用するために、様々な創作ニーズに柔軟に対応できる汎用モデルが求められていました。そこでNVIDIAは、25億パラメーターを持つオーディオ生成・処理モデルFugattoを発表しました。

Fugattoは、テキストプロンプトと高度なオーディオ合成能力を組み合わせることで、柔軟性の高いサウンド入力と創作実験の空間を提供することを目的として設計されています。例えば、ピアノのメロディーをボーカルに変換したり、トランペットに予想外のサウンドを生成させたりすることができます。

Fugattoはテキスト入力だけでなく、オプションでオーディオ入力にも対応しており、従来のオーディオ生成モデルの限界を打ち破り、アーティストや開発者がリアルタイムで創作や修正を行い、スムーズに新しいタイプのサウンドを生成することを可能にします。

技術面では、Fugattoは従来の教師あり学習を超えた革新的なデータ生成方法を採用しています。そのトレーニングは、通常のデータセットだけでなく、特注のデータセットも組み合わせており、多様なオーディオと変換タスクを作成しています。さらに、Fugattoは大規模言語モデル（LLM）を活用して指示生成能力を高め、オーディオとテキストプロンプトの関係をより適切に理解します。

重要なイノベーションとして、「ComposableART（コンポーザブルART）」と呼ばれる推論時に使用される技術があります。これは、異なるオーディオ生成指示を柔軟に組み合わせたり、補間したり、否定したりすることができます。ComposableARTにより、ユーザーはオーディオ合成プロセスでより高い制御力を持ち、Fugattoのサウンドパレットを正確に操作し、独特なサウンド現象を作り出すことができます。

Fugattoのアーキテクチャは強化されたTransformerモデルに基づいており、適応層正規化などの特定の修正を採用することで、様々な入力条件下で一貫性を維持し、複雑な組み合わせ指示に対応します。初期テストでは、Fugattoは一般的なベンチマークテストで優れた性能を示しており、特にサウンド合成と変換において、他の専門的なモデルと比較してより強力な能力を示しています。

Fugattoの発表は、オーディオ生成AIの重要な進歩を示しており、従来の限界を突破し、創造的なオーディオ制作に強力で柔軟なツールを提供します。音楽、ゲーム、エンターテインメント、教育など、複数の分野における潜在的な応用は、AI技術が人間の創造性を支援する上で引き続き重要な役割を果たすことを意味します。

公式ブログ:https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/

論文:https://d1qx31qr3h6wln.cloudfront.net/publications/FUGATTO.pdf

要点:
🎵 FugattoはNVIDIAが発表したオーディオAIモデルで、25億パラメーターを持ち、テキストとオーディオの入力をサポートし、音楽とサウンドクリエーションを支援します。
💻 革新的なデータ生成方法とComposableART技術を採用することで、ユーザーは柔軟にサウンドを生成および修正できます。
🌟 初期テストでは、Fugattoはオーディオ合成と変換において複数の専門モデルを上回る性能を示し、その強力な創造性を示しました。