Media2Faceは、音声、テキスト、画像のマルチモーダル誘導による共言語顔アニメーション生成ツールです。まず、汎用ニューラルパラメータ化顔アセット(GNPFA)を利用して、顔の形状と画像を高度に汎用的な表情潜在空間にマッピングし、次に大量のビデオから高品質な表情と正確な頭部姿勢を抽出し、M2F-Dデータセットを構築します。最後に、GNPFA潜在空間における拡散モデルを用いて共言語顔アニメーションを生成します。このツールは、顔アニメーション合成において高忠実度であるだけでなく、表現力とスタイルの適応性を拡張しています。