2025年3月9日、カリフォルニア州にて―オープンソースモデルによって、テキストから動画を生成する技術がますます魅力的になっています。AI開発者のOstris(@ostrisai)氏は最近、Xプラットフォーム上で、自身の顔写真で訓練したWan2.1LoRAモデルの成果を公開しました。わずか約20枚の写真と家庭用RTX4090グラフィックボードだけで、驚くべき動画生成効果を実現したのです。この成果はオープンソース技術の可能性を示すだけでなく、Xコミュニティで動画LoRAトレーニングツールに関する活発な議論を引き起こしました。
Ostris氏の驚くべき実験
Ostris氏は3月7日のX投稿で、Wan2.114B LoRAの訓練成果を初めて公開しました。「Wan2.114B LoRAの訓練が24GBで成功しました!4090で480p解像度で平均ステップ1.7秒」と彼は書き込み、家庭用ハードウェアでの実現可能性を示す初期の動画を共有しました。その後、3月9日には、自作の歌詞と@SunoMusicが生成した音楽を組み合わせた「低コストの概念実証ショートミュージックビデオ」を公開。動画に登場するデジタルアバターは、自身の顔写真をもとに訓練されたものです。
Ostris氏によると、約20枚の自分の写真のみを使用し、彼が開発した動画LoRAトレーニングツールでこのプロセスを完了したとのことです。彼は投稿で「こんなにうまくいくとは思いませんでした!とても楽しかったです。」とコメントしています。この実験は、Wan2.1LoRAの強力な性能を実証しただけでなく、一般ユーザーがオープンソースツールを使って高品質なテキストから動画生成を実現できる可能性を示しました。
トレーニングツールのオープンソース共有Ostris氏が開発した動画LoRAトレーニングツールが、今回の発表の大きなハイライトとなりました。ユーザーの@sundyme氏は3月9日の投稿で「動画LoRAトレーニングが登場!あなたをAI動画の主役にする!」と述べ、Ostris氏のツールのリンクを共有しました。このツールはWan2.1モデルをサポートしており、少数の画像でパーソナライズされた動画モデルを訓練することができ、技術的なハードルを大幅に下げています。
Xユーザーはこのツールに強い関心を示しています。@sundyme氏は「@ostrisai氏開発のLoRAトレーニングツール、Wan2.1対応で、効果は驚異的です。」と述べています。コミュニティからのフィードバックによると、このツールはRTX4090などのコンシューマー向けグラフィックボードで効率的に動作するため、より多くのクリエイターが自宅でAI動画生成を試すことができるようになりました。
コミュニティの反響と技術的な意義
X上の反響は、Ostris氏の成果が幅広い熱意を呼び起こしたことを示しています。あるユーザーは「20枚の写真でこれほどリアルなデジタルアバターを訓練できるなんて、信じられない!」とコメントしています。別のユーザーはオープンソースモデルの可能性を称賛し、「テキストから動画生成がますます面白くなってきました。オープンソースのおかげで、一般の人もAIを自由に使えるようになりました。」と述べています。
業界関係者は、Ostris氏の研究は、動画生成分野におけるオープンソースモデルのブレークスルーを浮き彫りにしていると指摘しています。Wan2.1LoRAと少サンプル学習技術の組み合わせは、ハードウェア要件を削減するだけでなく、パーソナライズされた創作のアクセシビリティも向上させます。膨大なデータセットと高性能サーバーを必要とする従来のモデルと比較して、この手法は独立系開発者や小規模チームに新たな道を切り開きます。
プロジェクトアドレス:https://github.com/ostris/ai-toolkit