FLOATは、流マッチング生成モデルに基づくオーディオ駆動型の人物ビデオ生成手法です。生成モデリングをピクセルベースの潜在空間から学習済みモーション潜在空間に移行することで、時間的に一貫性のあるモーションデザインを実現しています。本手法は、トランスフォーマーベースのベクトル場予測器を導入し、シンプルかつ効果的なフレーム単位の条件付けメカニズムを備えています。さらに、FLOATは音声駆動型感情増強に対応しており、表現力豊かなモーションを自然に統合できます。広範な実験により、FLOATは視覚品質、モーション忠実度、効率性において、既存のオーディオ駆動型話者像手法を上回ることが示されています。