FLOAT
流マッチングに基づくオーディオ駆動型話者像ビデオ生成手法
一般製品画像人工知能人物アニメーション
FLOATは、流マッチング生成モデルに基づくオーディオ駆動型の人物ビデオ生成手法です。生成モデリングをピクセルベースの潜在空間から学習済みモーション潜在空間に移行することで、時間的に一貫性のあるモーションデザインを実現しています。本手法は、トランスフォーマーベースのベクトル場予測器を導入し、シンプルかつ効果的なフレーム単位の条件付けメカニズムを備えています。さらに、FLOATは音声駆動型感情増強に対応しており、表現力豊かなモーションを自然に統合できます。広範な実験により、FLOATは視覚品質、モーション忠実度、効率性において、既存のオーディオ駆動型話者像手法を上回ることが示されています。
FLOAT 最新のトラフィック状況
月間総訪問数
2062
直帰率
55.17%
平均ページ/訪問
1.1
平均訪問時間
00:00:01