短い動画の吹き替えや効果音に悩んでいませんか? ぴったりのBGMを探しても、なかなか満足いくものがありませんか? 今、バイトダンスが革命的なAI技術を公開し、動画制作における最後の「無音の呪縛」を打ち破りました! 彼らが新たに開発したSeedFoley音響生成モデルは、まるで動画に命を吹き込むように、ワンクリックでプロレベルの効果音を動画にスマートにマッチングさせます。あなたの作品は、瞬く間に無声映画から迫力のあるサウンド映画へと変身し、その効果は驚くべきものとなるでしょう! さらに素晴らしいことに、このAI音響技術はバイトダンス傘下の動画制作プラットフォーム「即夢」で既に利用可能になり、誰もが簡単にワンクリックで音響効果を追加できる魔法を体験できます!

image.png

SeedFoleyはどのようにしてこれほど心を揺さぶる音響を実現しているのでしょうか? その秘密は、革新的なエンドツーエンドアーキテクチャにあります。まるで精密なサウンドマジシャンのように、動画の空間時間的特徴と強力な拡散生成モデルを巧みに融合することで、音響と動画コンテンツの高度な同期と完璧な調和を実現しています。簡単に言うと、SeedFoleyはまず動画をフレーム単位で分析し、まるでCTスキャンをするかのように各フレームの重要な情報を抽出し、ビデオエンコーダーを使用して動画の内容を深く理解します。そして、その理解を条件空間に投影し、その後の音響生成の方向性を示します。音響生成の高速道路上では、SeedFoleyは改良された拡散モデルフレームワークを採用し、無限の創造力を持つサウンドデザイナーのように、動画の内容に基づいて、完璧にマッチする音響方案をスマートに生成します。

image.png

AIが音の芸術をより深く理解できるように、SeedFoleyはトレーニング中に大量の音声と音楽関連のタグを学習しました。まるでAIにサウンド百科事典を与えたようなもので、音響と非音響を区別し、より正確な音響生成を実現します。さらに素晴らしいことに、SeedFoleyは万能選手で、あらゆる長さの動画に対応できます。数秒間のハイライトでも、数分間の完全なストーリーでも、簡単に処理できます。音響の正確性、同期性、そして動画コンテンツとの整合性において、業界をリードするレベルに達しています。

SeedFoleyのビデオエンコーダーにも秘密があります。高速と低速の特徴を組み合わせた独自の技術を採用し、高フレームレートでは動画の微細な局所運動情報を、まるで鷹の目のように正確に捉え、低フレームレートでは動画のセマンティック情報を重視し、動画のストーリーの中核を理解します。高速と低速の特徴を組み合わせることで、重要な運動特徴を維持しながら、計算コストを効果的に削減し、低消費電力と高性能の完璧なバランスを実現しています。

この高速と低速の組み合わせにより、SeedFoleyは少ない計算資源で驚異的な8fpsフレームレベルの動画特徴抽出を実現し、動画内のあらゆる微細な動きを正確に特定します。最終的にTransformer構造を使用して高速と低速の特徴を融合し、動画の空間時間的秘密を深く掘り下げます。トレーニングの効果と効率をさらに向上させるために、SeedFoleyはバッチ処理に複数の困難なサンプルを巧みに導入し、まるでAIに高度な課題を設定したかのように、セマンティックアライメント効果を大幅に向上させました。同時に、softmaxlossではなくsigmoidlossを使用することで、より少ないリソース消費で、大規模バッチトレーニングに匹敵する驚異的な効果を実現しています。

オーディオ表現モデルにおいても、SeedFoleyは独自の工夫を凝らしています。従来のVAEモデルが通常、メルスペクトログラムをオーディオ特徴のエンコーディングとして使用するのに対し、SeedFoleyは大胆にも生の波形(raw waveform)を入力として使用します。まるで音の原始的な形を直接聞くかのように、エンコーディング後に1Dのオーディオ表現を得ます。この方法は、従来のmel-VAEモデルと比較して、オーディオの再構成と生成モデリングにおいてより優れています。高周波情報の完全な保持を確保するために、SeedFoleyの音声サンプリングレートは32kHzに達し、1秒間に32個の音声潜在表現を抽出することで、時間軸上の解像度を効果的に向上させ、生成される音響をより繊細でリアルなものにします。まるで天上の音のようです。

SeedFoleyのオーディオ表現モデルは、二段階の共同トレーニング戦略を採用しています。まるで二つの柱を立てたかのように、第一段階では、マスク戦略を使用してオーディオ表現から位相情報を剥ぎ取り、位相を取り除いた潜在表現を拡散モデルの最適化目標とします。まるで音の構造を解体してから再構築するかのような方法です。第二段階では、オーディオデコーダーを使用して位相を取り除いた表現から位相情報を再構築します。まるで妙技で音を最もリアルな状態に戻すかのように。この段階的な戦略は、拡散モデルが表現を予測する難易度を効果的に低減し、最終的に高品質なオーディオ潜在表現の生成と復元を実現します。

拡散モデルにおいて、SeedFoleyはDiffusionTransformerフレームワークを選択し、確率経路上の連続写像関係を最適化することで、ガウスノイズ分布から目標オーディオ表現空間への確率的な正確なマッチングを実現します。まるで茫洋としたノイズの中から目標音の正しい経路を見つけるかのような方法です。従来の拡散モデルがマルコフ連鎖サンプリングに依存する特性とは異なり、SeedFoleyは連続変換経路を構築することで、推論ステップ数を効果的に削減し、推論コストを大幅に削減します。これにより、音響生成速度が速くなり、効率が向上します。トレーニング段階では、SeedFoleyは動画の特徴とオーディオセマンティックラベルをそれぞれ潜在空間ベクトルにエンコードします。まるで動画とオーディオ情報をAIが理解できる言語に翻訳するかのように、そしてチャネルワイズ連結(Channel-wise Concatenation)を通じて、これらを時間エンベディング(Time Embedding)とノイズ信号と混合し、統合条件入力を作成します。まるで動画、オーディオ、時間情報を融合させることで、AIが動画の内容をより包括的に理解し、より正確な音響を生成できるようにします。

この巧妙な設計により、クロスモーダル時系列関連性を明示的にモデル化することで、音響と動画画面の時間的一貫性と内容の理解能力を効果的に向上させています。推論段階では、ユーザーはCFG係数を調整することで、視覚情報の制御強度と生成品質のバランスを柔軟に調整できます。まるで音響ミキシングコンソールを持っているかのように、ニーズに合わせて音響スタイルを自由に調整できます。反復的なノイズ分布の最適化により、SeedFoleyはノイズを段階的にターゲットデータ分布に変換し、最終的に高品質の音響オーディオを生成します。音響に不要な音声やBGMが混入するのを防ぐために、SeedFoleyは音声と音楽ラベルを強制的に設定することもでき、まるで音響に境界線を引くように、音響の明瞭さと質感を効果的に向上させます。最後に、オーディオ表現をオーディオデコーダーに入力すると、最終的な完璧な音響が得られます。

総じて、SeedFoleyの誕生は、動画コンテンツとオーディオ生成の深い融合を意味します。SeedFoleyは、動画のフレームレベルの視覚情報を正確に抽出し、複数のフレームの画面情報を洞察することで、動画内の発声主体と動作シーンを正確に識別します。リズム感あふれる音楽の瞬間でも、映画の緊張感あふれるシーンでも、SeedFoleyは正確にタイミングを合わせ、臨場感あふれるリアルな体験を作り出します。さらに驚くべきことに、SeedFoleyは動作音響と環境音響をスマートに区別することもでき、まるで音響界の芸術家のように、動画の物語の張力と感情伝達効率を大幅に向上させ、あなたの動画作品により強い訴求力を与えます。

現在、AI音響機能は「即夢」プラットフォームで正式に利用可能になりました。ユーザーは「即夢」で動画を生成した後、AI音響機能を選択するだけで、ワンクリックで3つのプロレベルの音響方案を生成できます。AI動画の無音という不都合から簡単に解放され、AI動画制作、生活Vlog、短編制作、ゲーム制作など、高頻度で使用されるシーンで、プロレベルの音響を備えた高品質な動画を簡単に制作でき、あなたの動画作品に瞬く間に命を吹き込むことができます!