INFPは、二人間の会話用に設計された音声駆動型のインタラクティブなヘッド生成フレームワークです。二人間の会話のデュアルトラック音声と任意のエージェントの単一肖像画像から、リアルな表情とリズム感のあるヘッドポーズ動作を備えた、言語的、非言語的、インタラクティブなエージェントビデオを動的に合成します。このフレームワークは軽量かつ強力で、ビデオ会議などのリアルタイムコミュニケーションシーンに適しています。INFPは、Interactive(インタラクティブ)、Natural(自然)、Flash(高速)、Person-generic(汎用)を表します。