最近、潞晨Open-Soraチームは、720p高画質テキスト動画生成における品質と生成時間において画期的な進歩を遂げました。720p高画質動画の品質と生成時間の両面で大きな成果を上げ、さらにそれをオープンソース化するという快挙を成し遂げ、コミュニティ全体を沸き立たせました!
大げさではなく、彼らのオープンソースプロジェクトによって、動画生成はまるでデリバリーアプリで料理を注文するような手軽さになりました。3月の公開以来、GitHub上で17.5Kものスターを獲得し、爆発的な人気を博しています!
オープンソースアドレス: https://github.com/hpcaitech/Open-Sora
Open-Soraは、ワンクリックで16秒間の720p高画質動画を生成できます。繊細な人物肖像画から、クールなSF大作、生き生きとしたアニメーションまで、滑らかなズーム効果も完璧に再現します。なんと、NVIDIAが出資するAI企業Lambda LabsもOpen-Soraのモデルウェイトを基に、デジタルレゴ宇宙を構築し、レゴファンに新たな創造の場を提供しています。
潞晨チームは、モデルウェイトのオープンソース化だけでなく、GitHub上で技術ロードマップも公開し、誰もが動画大規模モデルの開発者になれるようにしました。この技術レポートでは、モデルトレーニングの中核と重要な要素を深く掘り下げて解説しており、動画圧縮ネットワークから拡散モデルアルゴリズム、そして制御可能性まで、11億パラメータの拡散生成モデルを用いて、動画モデルトレーニングにおける課題を解決しています。
レポートアドレス:https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_03.md
動画圧縮ネットワークの導入は、OpenAIのSoraと同じ手法です。時間軸上で4倍の圧縮が可能で、フレームの抽出は不要であり、元のFPSで動画を生成できます。チームは、まず空間次元で8x8倍の圧縮を行い、次に時間次元で4倍の圧縮を行うシンプルな動画圧縮ネットワーク(VAE)も提案しています。
Stable Diffusion 3の最新の拡散モデルは、rectified flow技術により生成品質が向上しています。潞晨チームが提供する技術には、整流トレーニング、Logit-norm時間ステップサンプリングなどがあり、モデルトレーニングの速度を向上させ、推論待ち時間を短縮しています。
レポートでは、データクレンジング、モデル調整テクニック、モデル評価システムの構築など、モデルトレーニングの核心的な詳細も公開されています。さらに、ワンクリックで展開できるGradioアプリケーションも提供しており、様々なパラメータ調整に対応しています。
潞晨Open-Soraのオープンソース化は、閉鎖的な状況を打破し、テキスト動画生成のイノベーションと発展に活力を与えました。ユーザーはコンテンツ消費者からクリエイターへと転換し、企業ユーザーは独自の開発スキルを手に入れることができます。