動画トレーニングLoRA登場！Ostrisが20枚の写真で驚きのWan 2.1 LoRAを作成

AIbase基地

公開日AIニュース · 1 分で読めます · Mar 10, 2025

249

2025年3月9日、カリフォルニア州にて―オープンソースモデルによって、テキストから動画を生成する技術がますます魅力的になっています。AI開発者のOstris（@ostrisai）氏は最近、Xプラットフォーム上で、自身の顔写真で訓練したWan2.1LoRAモデルの成果を公開しました。わずか約20枚の写真と家庭用RTX4090グラフィックボードだけで、驚くべき動画生成効果を実現したのです。この成果はオープンソース技術の可能性を示すだけでなく、Xコミュニティで動画LoRAトレーニングツールに関する活発な議論を引き起こしました。

Ostris氏の驚くべき実験

Ostris氏は3月7日のX投稿で、Wan2.114B LoRAの訓練成果を初めて公開しました。「Wan2.114B LoRAの訓練が24GBで成功しました！4090で480p解像度で平均ステップ1.7秒」と彼は書き込み、家庭用ハードウェアでの実現可能性を示す初期の動画を共有しました。その後、3月9日には、自作の歌詞と@SunoMusicが生成した音楽を組み合わせた「低コストの概念実証ショートミュージックビデオ」を公開。動画に登場するデジタルアバターは、自身の顔写真をもとに訓練されたものです。

Ostris氏によると、約20枚の自分の写真のみを使用し、彼が開発した動画LoRAトレーニングツールでこのプロセスを完了したとのことです。彼は投稿で「こんなにうまくいくとは思いませんでした！とても楽しかったです。」とコメントしています。この実験は、Wan2.1LoRAの強力な性能を実証しただけでなく、一般ユーザーがオープンソースツールを使って高品質なテキストから動画生成を実現できる可能性を示しました。

トレーニングツールのオープンソース共有Ostris氏が開発した動画LoRAトレーニングツールが、今回の発表の大きなハイライトとなりました。ユーザーの@sundyme氏は3月9日の投稿で「動画LoRAトレーニングが登場！あなたをAI動画の主役にする！」と述べ、Ostris氏のツールのリンクを共有しました。このツールはWan2.1モデルをサポートしており、少数の画像でパーソナライズされた動画モデルを訓練することができ、技術的なハードルを大幅に下げています。

Xユーザーはこのツールに強い関心を示しています。@sundyme氏は「@ostrisai氏開発のLoRAトレーニングツール、Wan2.1対応で、効果は驚異的です。」と述べています。コミュニティからのフィードバックによると、このツールはRTX4090などのコンシューマー向けグラフィックボードで効率的に動作するため、より多くのクリエイターが自宅でAI動画生成を試すことができるようになりました。

コミュニティの反響と技術的な意義

X上の反響は、Ostris氏の成果が幅広い熱意を呼び起こしたことを示しています。あるユーザーは「20枚の写真でこれほどリアルなデジタルアバターを訓練できるなんて、信じられない！」とコメントしています。別のユーザーはオープンソースモデルの可能性を称賛し、「テキストから動画生成がますます面白くなってきました。オープンソースのおかげで、一般の人もAIを自由に使えるようになりました。」と述べています。

業界関係者は、Ostris氏の研究は、動画生成分野におけるオープンソースモデルのブレークスルーを浮き彫りにしていると指摘しています。Wan2.1LoRAと少サンプル学習技術の組み合わせは、ハードウェア要件を削減するだけでなく、パーソナライズされた創作のアクセシビリティも向上させます。膨大なデータセットと高性能サーバーを必要とする従来のモデルと比較して、この手法は独立系開発者や小規模チームに新たな道を切り開きます。

プロジェクトアドレス：https://github.com/ostris/ai-toolkit

Vertex AI Media Studioによるテキストから動画生成ツールがGoogleより発表

2025年4月9日、GoogleはVertex AI Media Studioによるテキストから動画を生成するツールを発表しました。この新しいプラットフォームは、人工知能技術を活用して動画制作プロセスを大幅に簡素化し、テキストから完成した動画までをワンストップで提供することを目指しています。この発表は、テクノロジー業界とコンテンツクリエイターの大きな注目を集めています。AIによる動画制作の全自動化Vertex AI Media Studioは、Imagen3などGoogleの最先端AIモデルを統合しています。

Flora、クリエイティブプロフェッショナル向けAI駆動の無限キャンバスツールを発表

今日のクリエイティブ業界において、人工知能（AI）はますます重要なツールになりつつあります。多くの人が、ほんの数語を入力するだけで、AIモデルを使ってストーリー、画像、または短い動画を生成できます。しかし、Floraの創設者兼CEOであるウェーバー・ウォン氏は、既存のAIツールの大部分は、非クリエイティブな人々によって、他の非クリエイティブな人々のために設計されており、プロのクリエイティブな人々のニーズを真に満たすものではないと指摘しています。Floraは最近正式にローンチされ、AIクリエイティブツールの宣言を発表しました。

複数モデル統合、リアルタイム共同作業：Floraが革新的なデザインワークフローを実現するAIキャンバスを発表

今日の世界では、AIモデルは数語のプロンプトから物語、画像、さらには短編映画を生み出すことができます。しかし、Floraの創設者兼CEOであるWebb Wong氏は、既存のAIツールには根本的な問題があると指摘します。それは、それらがクリエイティブでない人によって作られ、他のクリエイティブでない人が創造性を体験するためのものであり、真のクリエイティブな専門家向けに設計されていないということです。今週正式にローンチされたFloraは、明確な宣言を伴います。AIクリエイティブツールは、単なるAIゴミ生成の玩具であってはならない、と。Wong氏と彼のチームは、

PhotoDoodle AI：ほんのわずかなプロンプトで、あなたの写真を想像力豊かなアート作品に変換

バイトダンスが中国とシンガポールの大学研究チームと共同で開発した新しいAI画像編集システムPhotoDoodleは、画像制作に対する私たちの理解を再定義しつつあります。Flux.1モデルをベースにしたこの革新的な技術は、少数のサンプルからアートスタイルを学習し、特定の編集指示を正確に実行することで、創造的な表現に新たな可能性を切り開きます。Flux.1を基盤とするPhotoDoodleの中核は、研究チームが最初に開発したOmniEditorシステムであり、LoRA（低ランク適応）を巧みに活用して、…

GPU市場に再び火花：Nvidia RTX5070発売延期、AMDは対抗策か

GPU市場は新たな激しい競争の時期を迎えます。Nvidiaは間もなく発売されるRTX5070 GPUに大きな期待を寄せており、その性能はRTX4090に匹敵する一方、価格は549ドルに抑えると主張しています。しかし、この主張が市場で実証されるかどうかはまだ分かりません。Nvidiaは当初2月にRTX5070を発売する予定でしたが、本日製品ページの最新情報によると、発売日は3月5日に延期されました。それでもNvidiaは、AMDの予定イベントの前週となる2月20日に発売を開始する計画です。

新型AIモデルTransformer²：タコのように柔軟に、動的に重みを調整し、環境に適応

従来の大規模言語モデル（LLM）の微調整方法は、通常、計算集約的で、多様なタスクを処理する際に静的です。これらの課題に対処するため、Sakana AIはTransformer²と呼ばれる新しい適応型フレームワークを発表しました。Transformer²は推論中にLLMの重みをリアルタイムで調整できるため、タコのように柔軟に様々な未知のタスクに適応できます。Transformer² のコアは2段階メカニズムにあります。第1段階では、スケジューリングシステムが…

Nvidia RTX 5070：549ドルでRTX 4090並みの性能？

最近のCESで、NvidiaのCEOであるジェンスン・フアンは衝撃的な発言をしました。「RTX 5070は、549ドルでRTX 4090並みの性能を実現する」と。この発言は、YouTubeやTikTokを中心にソーシャルメディアで大きな話題となり、様々な意見が飛び交っています。では、RTX 5070は本当に1599ドルのRTX 4090に対抗できるのでしょうか？答えは単純ではありません。重要なのはN...