桁外れのOpenAI Soraをご存知でしょうか?数百万ドルもの莫大なトレーニング費用は、まさに動画生成界の「ロールスロイス」です。今、潞晨科技がオープンソースの動画生成モデル Open-Sora2.0を発表しました!
わずか20万ドル(GPU 224枚分に相当)の費用で、110億パラメーターを誇る商用レベルの動画生成大規模モデルのトレーニングに成功しました。
性能は「OpenAI Sora」に匹敵
Open-Sora2.0はコストが低いながらも、その実力は決して侮れません。業界のベンチマークであるHunyuanVideoや、300億パラメーターを持つStep-Videoに堂々と挑戦できる実力者です。権威ある評価指標であるVBenchやユーザー嗜好テストにおいて、Open-Sora2.0は目覚ましいパフォーマンスを示し、数百万ドルもの費用をかけてトレーニングされたクローズドソースモデルと肩を並べる多くの重要な指標を達成しました。
さらに驚くべきことに、VBenchの評価において、OpenAI Soraとの性能差は以前の4.52%からわずか0.69%に大幅縮小しました!これは事実上性能の完全な追い付きと言えます!
また、Open-Sora2.0はVBenchでのスコアでテンセントのHunyuanVideoを上回っており、まさに「後発が先行を凌駕する」状況です。より低いコストでより高い性能を実現し、オープンソースの動画生成技術に新たな基準を打ち立てました!
ユーザー嗜好テストでは、Open Soraは視覚表現、テキストの一貫性、動作表現という3つの重要な要素において、少なくとも2つの指標でオープンソースSOTAモデルであるHunyuanVideoや商用モデルであるRunway Gen-3Alphaなどを上回りました。
低コスト高性能の秘密兵器
皆さん、Open-Sora2.0がどのようにしてこれほど低いコストで高い性能を実現できたのか、気になっていることでしょう。その背景には多くの秘密兵器があります。まず、Open SoraチームはモデルアーキテクチャにおいてOpen-Sora1.2のデザインコンセプトを継承し、3D自己符号化器とFlow Matchingトレーニングフレームワークを引き続き採用しました。同時に、3D全注意機構を導入し、動画生成の品質をさらに向上させています。
究極のコスト最適化を目指して、Open-Sora2.0は複数の側面から取り組んでいます。
- 厳格なデータ選別により、高品質なトレーニングデータを入力し、効率を根本から向上させています。
- 低解像度トレーニングを優先することで、運動情報を効率的に学習し、計算コストを削減しています。高解像度トレーニングのコストは低解像度の数十倍にもなることを忘れてはいけません!
- 画像から動画へのタスクを優先的にトレーニングすることで、モデルの収束を加速し、トレーニングコストをさらに削減しています。さらに、推論段階では、テキストから画像、そして動画への生成(T2I2V)によって、より精細な視覚効果を得ることができます。
- 効率的な並列トレーニングスキームを採用し、ColossalAIとシステムレベルの最適化を組み合わせることで、計算資源の利用率を大幅に向上させています。効率的なシーケンシャル並列処理やZeroDP、細粒度制御のGradient Checkpointing、トレーニング自動復元機構などの様々な「ブラックテクノロジー」の活用により、トレーニング効率が大幅に向上しました。
推定では、市場に出回っている100億パラメーター以上のオープンソース動画モデルは、トレーニングコストが1回あたり数百万ドルにも上りますが、Open Sora2.0はこれを5~10倍削減しました。これは動画生成分野にとって朗報であり、より多くの人が質の高い動画生成の研究開発に参加できる機会を提供します。
オープンソース共有、繁栄するエコシステムの構築
さらに称賛すべき点は、Open-Soraがモデルコードと重みだけでなく、全プロセストレーニングコードもオープンソース化したことでしょう。これは間違いなく、オープンソースエコシステム全体の進化を大きく促進するでしょう。サードパーティの技術プラットフォームの統計によると、Open-Soraの学術論文の引用回数は半年で約100回に達し、世界的なオープンソースの影響力ランキングで首位を維持しており、世界で最も影響力のあるオープンソース動画生成プロジェクトの1つとなっています。
Open-Soraチームは、推論コストの大幅削減を目指して高圧縮比動画自己符号化器の応用にも積極的に取り組んでいます。彼らは高圧縮比(4×32×32)の動画自己符号化器をトレーニングし、768px、5秒間の動画の単一GPUでの生成時間を約30分から3分以内に短縮し、速度を10倍向上させました!これは、今後、より迅速に高品質な動画コンテンツを生成できることを意味します。
潞晨科技が発表したオープンソース動画生成モデルOpen-Sora2.0は、低コスト、高性能、完全オープンソースという特性により、動画生成分野に強力な「低価格」旋風をもたらしました。その登場は、トップレベルのクローズドソースモデルとの差を縮めるだけでなく、高品質な動画生成のハードルを下げ、より多くの開発者が参加し、動画生成技術の発展を共に推進できる機会を生み出しました。
🔗 GitHubオープンソースリポジトリ:https://github.com/hpcaitech/Open-Sora
📄技術レポート:https://github.com/hpcaitech/Open-Sora-Demo/blob/main/paper/Open_Sora_2_tech_report.pdf