アリババEMOフレームワークによる動画生成技術の強化、キャラクターアバターによる歌唱と口パク動画生成を実現

机器之心

公開日AIニュース · 1 分で読めます · Feb 29, 2024

アリババのEMOフレームワークは、音声プロンプトと顔の動きとの関連性に注目することで、ヘッドビデオ生成のリアルさ、自然さ、表現力を向上させます。EMOは、さまざまな言語の歌や音声の生成に対応しており、キャラクターのアバターに豊かな表情と動きを与えることができます。さらに、EMOは異なるキャラクター間の連携も実現し、ビデオ生成の可能性を広げます。

報道：アリババ、2025年末までに全販売業者へのAIツール導入目指す

サウスチャイナ・モーニング・ポストの報道によると、アリババ国際卸売市場の社長である張闊氏は最近のインタビューで、アリババが人工知能（AI）技術の導入を推進しており、2025年末までに全販売業者へのAIツール導入を目指していると述べました。現在、約20万人の販売業者のうち、半数以上がアリババが提供するAIアプリケーションを毎週利用しています。これらのAIツールは2024年初頭に導入され、販売業者のマーケティング、製品管理、顧客とのやり取り、リスク管理を支援することを目的としています。これらの施策はアリババ...

ファーウェイ昇騰と階躍星辰、オープンソースのマルチモーダルモデルを発表 AI新分野に進出

先日、魔楽コミュニティ（Modelers）で、階躍星辰が開発したオープンソースのマルチモーダル大規模モデルであるStep-VideoとStep-Audioが正式に公開されました。これらのモデルは、それぞれ動画生成と音声対話に使用され、開発者と企業ユーザーにより強力なAIツールを提供することを目指しています。Step-Videoモデルの正式名称はStep-Video-T2Vで、300億パラメーターという世界最大のオープンソース動画生成モデルです。このモデルは、20秒の動画を直接生成できます。

動画トレーニングLoRA登場！Ostrisが20枚の写真で驚きのWan 2.1 LoRAを作成

2025年3月9日、カリフォルニア州——オープンソースモデルによって、テキストから動画を生成する技術がますます魅力的になっています。AI開発者Ostris（@ostrisai）は最近、Xプラットフォームで、自身の20枚ほどの画像を用いてトレーニングしたWan 2.1 LoRAモデルの成果を共有しました。家庭用のRTX4090グラフィックカードを使用するだけで、驚くほど高品質な動画生成を実現しています。この成果はオープンソース技術の可能性を示すだけでなく、Xコミュニティで動画LoRAトレーニングに関する議論を活発化させています。

AIニュース

アリババEMOフレームワークによる動画生成技術の強化、キャラクターアバターによる歌唱と口パク動画生成を実現

机器之心

関連AIニュースの推奨

アリババAI検索エンジンAccio、ユーザー100万人を突破 AI機能追加でグローバル貿易を強化

報道：アリババ、2025年末までに全販売業者へのAIツール導入目指す

ファーウェイ昇騰と階躍星辰、オープンソースのマルチモーダルモデルを発表 AI新分野に進出

動画トレーニングLoRA登場！Ostrisが20枚の写真で驚きのWan 2.1 LoRAを作成