Stability AIは、Stable Diffusionによるテキストから画像生成モデルで知られています。最近、同社は世界的な半導体大手Armと提携し、モバイルデバイスへの生成AIオーディオ機能の導入に取り組んでいます。この協力により、Stable Audio OpenモデルはArm CPU上で完全に動作し、ユーザーはインターネット接続なしで、デバイス上で迅速にサウンドエフェクト、オーディオサンプル、制作要素を生成できます。
Stability AIは、生成AIが企業やプロのクリエイターの間でますます広く利用されるようになっているため、当社のモデルとワークフローが様々なクリエイティブ分野で簡単に利用できることを確保することが非常に重要だと述べています。これは、創作効率の向上だけでなく、これらの技術を視覚メディア制作プロセスにシームレスに統合する上でも役立ちます。
増加する需要に対応するため、同社はエッジデバイスでのモデルの動作効率の向上を目指しています。モバイルデバイス向けにStable Audio Openモデルを最適化する過程で、初期テストではArm CPUデバイスでオーディオ生成に240秒かかりました。モデル蒸留とArmのソフトウェアスタック、特にXNNPackのKleidiAIにおけるint8行列乗算カーネルを活用することで、11秒のオーディオクリップ生成時間を8秒に短縮し、30倍の高速化を実現しました。
なお、この機能を利用するには、対応するモバイルデバイスが必要です。現在、ほとんどのスマートフォンがArmアーキテクチャのCPUを搭載しているため、この技術は幅広いユーザーにとって利用しやすくなっています。今後、Stability AIは、画像、ビデオ、3D分野のすべてのモデルをエッジデバイスにもたらす計画であり、モバイルデバイスでの視覚メディア制作方法を根本的に変革することを目指しています。
要点:
🌟 Stability AIとArmの協力により、モバイルデバイスでオフラインでオーディオを生成できる技術が登場しました。
⚡ モデル蒸留とソフトウェア最適化により、オーディオ生成時間は240秒から8秒に短縮され、効率は30倍向上しました。
📱 この技術は、Arm CPUを搭載したほとんどのスマートフォンで使用でき、将来的にはより多くのメディア制作分野に拡大される予定です。