アリババチームは、表情豊かな顔の表情と頭の動きを伴う音声肖像ビデオを生成できる肖像ビデオ生成フレームワークEMOを発表しました。EMOは、参照ネットワークを利用して参照画像と動作フレームから特徴を抽出し、事前にトレーニングされたオーディオエンコーダーを使用して音声を処理し、埋め込みます。そして、複数フレームのノイズと顔領域マスクを組み合わせてビデオを生成します。実験結果によると、EMOは表現力とリアルさの点で既存の方法を上回っています。このモデルは、デジタルメディアや仮想コンテンツ生成技術の向上に役立つ可能性がありますが、犯罪ツールとして悪用される可能性も秘めています。