InstructAvatarは、豊かな感情表現を持つ2Dアバターを生成するための革新的なテキスト誘導方式です。自然言語インターフェースを通じてアバターの感情や顔の動きを制御し、きめ細かい制御、向上したインタラクティブ性、生成ビデオへの汎化能力を提供します。指示とビデオのペアのトレーニングデータセットを構築するための自動アノテーションプロセスを設計しており、音声とテキストの指示の両方に基づいてアバターを同時に予測できる、新規の双方向拡散ベースジェネレーターを搭載しています。実験結果によると、InstructAvatarは、きめ細かい感情制御、リップシンクの質、自然さの点で既存の方法を上回っています。