海外メディアAndroid Authorityの報道によると、GoogleはAIデジタルアシスタントGeminiに新機能を追加し続けています。深い文脈理解、ファイル処理の最適化、アプリ間の連携機能に続き、GoogleアプリのコードからGeminiがまもなく動画生成機能を搭載することが示唆されています。
また、「videogen」と以下の文字列を参照するコードファイルも見つかりました。
海外メディアAndroid Authorityの報道によると、GoogleはAIデジタルアシスタントGeminiに新機能を追加し続けています。深い文脈理解、ファイル処理の最適化、アプリ間の連携機能に続き、GoogleアプリのコードからGeminiがまもなく動画生成機能を搭載することが示唆されています。
また、「videogen」と以下の文字列を参照するコードファイルも見つかりました。
先日、魔楽コミュニティ(Modelers)で、階躍星辰が開発したオープンソースのマルチモーダル大規模モデルであるStep-VideoとStep-Audioが正式に公開されました。これらのモデルは、それぞれ動画生成と音声対話に使用され、開発者と企業ユーザーにより強力なAIツールを提供することを目指しています。Step-Videoモデルの正式名称はStep-Video-T2Vで、300億パラメーターという世界最大のオープンソース動画生成モデルです。このモデルは、20秒の動画を直接生成できます。
2025年3月9日、カリフォルニア州——オープンソースモデルによって、テキストから動画を生成する技術がますます魅力的になっています。AI開発者Ostris(@ostrisai)は最近、Xプラットフォームで、自身の20枚ほどの画像を用いてトレーニングしたWan 2.1 LoRAモデルの成果を共有しました。家庭用のRTX4090グラフィックカードを使用するだけで、驚くほど高品質な動画生成を実現しています。この成果はオープンソース技術の可能性を示すだけでなく、Xコミュニティで動画LoRAトレーニングに関する議論を活発化させています。