アリババのEMOフレームワークは、音声プロンプトと顔の動きとの関連性に注目することで、ヘッドビデオ生成のリアルさ、自然さ、表現力を向上させます。EMOは、さまざまな言語の歌や音声の生成に対応しており、キャラクターのアバターに豊かな表情と動きを与えることができます。さらに、EMOは異なるキャラクター間の連携も実現し、ビデオ生成の可能性を広げます。
アリババのEMOフレームワークは、音声プロンプトと顔の動きとの関連性に注目することで、ヘッドビデオ生成のリアルさ、自然さ、表現力を向上させます。EMOは、さまざまな言語の歌や音声の生成に対応しており、キャラクターのアバターに豊かな表情と動きを与えることができます。さらに、EMOは異なるキャラクター間の連携も実現し、ビデオ生成の可能性を広げます。
サウスチャイナ・モーニング・ポストの報道によると、アリババ国際卸売市場の社長である張闊氏は最近のインタビューで、アリババが人工知能(AI)技術の導入を推進しており、2025年末までに全販売業者へのAIツール導入を目指していると述べました。現在、約20万人の販売業者のうち、半数以上がアリババが提供するAIアプリケーションを毎週利用しています。これらのAIツールは2024年初頭に導入され、販売業者のマーケティング、製品管理、顧客とのやり取り、リスク管理を支援することを目的としています。これらの施策はアリババ...
先日、魔楽コミュニティ(Modelers)で、階躍星辰が開発したオープンソースのマルチモーダル大規模モデルであるStep-VideoとStep-Audioが正式に公開されました。これらのモデルは、それぞれ動画生成と音声対話に使用され、開発者と企業ユーザーにより強力なAIツールを提供することを目指しています。Step-Videoモデルの正式名称はStep-Video-T2Vで、300億パラメーターという世界最大のオープンソース動画生成モデルです。このモデルは、20秒の動画を直接生成できます。
2025年3月9日、カリフォルニア州——オープンソースモデルによって、テキストから動画を生成する技術がますます魅力的になっています。AI開発者Ostris(@ostrisai)は最近、Xプラットフォームで、自身の20枚ほどの画像を用いてトレーニングしたWan 2.1 LoRAモデルの成果を共有しました。家庭用のRTX4090グラフィックカードを使用するだけで、驚くほど高品質な動画生成を実現しています。この成果はオープンソース技術の可能性を示すだけでなく、Xコミュニティで動画LoRAトレーニングに関する議論を活発化させています。