最近の火山引擎のビデオクラウド技術カンファレンスで、重要な革新である大規模モデル訓練ビデオ前処理ソリューションが発表されました。この技術は既に豆包ビデオ生成モデルに成功裏に適用されており、AIビデオ生成技術の大きな進歩を示しています。
火山引擎の譚待社長は、AIGCとマルチモーダル技術がユーザーエクスペリエンスを大きく変えつつあると強調しました。抖音の経験に基づき、火山引擎はAI大規模モデルとビデオ技術の融合を積極的に探求し、企業に包括的なソリューションを提供しています。
抖音集団のビデオアーキテクチャ責任者である王悦氏は、大規模モデルの訓練には、大量データ処理の高コスト、サンプル品質のばらつき、処理チェーンの複雑さ、そして様々な異種計算資源のスケジューリング問題など、多くの課題があると指摘しました。
これらの課題に対処するため、火山引擎は自社開発のマルチメディア処理フレームワークBMFをベースに、インテルの多様な計算資源を活用した前処理ソリューションを開発しました。このソリューションはアルゴリズムとエンジニアリングの両面で最適化されており、大量のビデオデータを効率的に処理し、モデル訓練の効率を大幅に向上させます。
さらに、火山引擎はモバイル端末向けの後処理ソリューションであるBMF lite版もオープンソース化しました。これは端末側の大規模モデルの接続と演算子アクセラレーションをサポートし、より軽量で汎用性が高くなっています。
注目すべきは、9月24日に発表された豆包ビデオ生成モデルPixelDanceがこの技術ソリューションを採用していることです。このモデルはDiTアーキテクチャを採用し、複数主体運動の複雑な相互作用と複数ショット切り替えにおけるコンテンツの一貫性という課題を克服しました。現在、豆包ビデオ生成モデルは火山引擎を通じて企業向けに招待テストが開始されています。