李飛飛チームは、人間の動作を理解・生成し、言語モデルを組み合わせることで音声言語と非音声言語の統一処理を実現する新しいマルチモーダルモデルを発表しました。この画期的な研究により、機械は人間の指示を理解するだけでなく、動作に含まれる感情を読み取り、より自然な人間と機械のインタラクションが可能になります。
このモデルの中核は、音声、動作、テキストなど様々な形式の入力を受けて必要なモーダルデータを出力するマルチモーダル言語モデルフレームワークです。生成系事前学習戦略と組み合わせることで、複数のタスクで卓越した性能を発揮します。例えば、協調音声ジェスチャー生成においては、既存技術を凌駕するだけでなく、トレーニングに必要なデータ量も大幅に削減しました。さらに、編集可能なジェスチャー生成や動作による感情予測など、新たなアプリケーションシナリオも開拓しています。
人間のコミュニケーションは本質的にマルチモーダルであり、音声、表情、体勢などの言語的および非言語的手がかりを含みます。このモデルはこれらのマルチモーダルな行動を理解できるため、ゲーム、映画、仮想現実などのアプリケーションで自然なコミュニケーションを行う仮想キャラクターを作成する上で非常に重要です。しかし、既存の動作生成モデルは、通常特定の入力モーダル(音声、テキスト、または動作データ)に限定されており、利用可能なデータの多様性を十分に活用できません。
このモデルは言語モデルを使用して音声言語と非音声言語を統一しており、その主な理由は3つあります。
言語モデルは異なるモーダルを自然に結び付けます。
音声は高い意味論性を持ち、冗談への反応などのタスクのモデリングには強力な意味論的推論能力が必要です。
言語モデルは広範な事前学習を通じて強力な意味理解能力を獲得しています。
この目標を実現するために、研究チームはまず身体を顔、手、上半身、下半身といった異なる部分に分割し、各部分を個別に動作ラベル付けしました。テキストと音声のトークナイザーと組み合わせることで、あらゆるモーダルの入力を言語モデルで使用できる一連のトークンとして表現できます。このモデルは、まず様々なモーダルと組み合わせた身体動作のアラインメント、および音声とテキストのアラインメントを実現する事前学習プロセスを採用しています。その後、下流タスクを指示に変換し、これらの指示でモデルをトレーニングして様々なタスク指示に従うようにします。
このモデルは、BEATv2協調音声ジェスチャー生成ベンチマークテストで優れた結果を示し、既存モデルを大きく上回りました。事前学習戦略の効果も検証され、特にデータが不足している状況下で強力な汎化能力を示しました。音声-動作とテキスト-動作タスクで事後トレーニングを行うことで、モデルは音声とテキストのプロンプトに従うだけでなく、動作データから感情を予測するなど、新たな機能も実現しています。
技術的な詳細については、このモデルはモーダル固有のトークナイザーを使用して様々な入力モーダルを処理します。具体的には、顔、手、上半身、下半身の動作を離散的なトークンに変換する組み合わせ身体運動VQ-VAEをトレーニングしました。これらのモーダル固有の語彙(音声とテキスト)は、統一されたマルチモーダル語彙に統合されます。トレーニングでは、異なるモーダルの混合トークンが入力として使用され、エンコーダー-デコーダー言語モデルによって出力が生成されます。
このモデルはマルチモーダル語彙を使用して、異なるモーダルデータを統一された形式に変換して処理します。事前学習段階では、モデルはモーダル間の変換タスクを実行することで、異なるモーダル間の対応関係を学習します。例えば、モデルは上半身の動作を下半身の動作に変換したり、音声をテキストに変換したりすることができます。さらに、モデルはランダムに一部の動作フレームをマスクすることで、動作の時間的変化を学習します。
事後学習段階では、モデルはペアデータを使用して微調整を行い、協調音声ジェスチャー生成やテキストから動作への生成などの下流タスクを実行します。モデルが自然な人間の指示に従えるようにするために、研究者は音声から動作への変換、テキストから動作への変換、感情から動作への変換などのタスクを指示に変換するマルチタスク指示追従テンプレートを作成しました。このモデルはジェスチャーを編集する機能も備えており、テキストと音声のプロンプトに基づいて協調的な全身動作を生成できます。
最後に、このモデルは動作から感情を予測する新たな能力も開拓しました。これは、精神衛生や精神医学などの分野で重要な意味を持ちます。他のモデルと比較して、このモデルは動作で表現されている感情をより正確に予測でき、強力なボディランゲージ理解能力を示しています。
この研究は、人間の動作の音声言語と非音声言語を統一することが実際的な応用にとって非常に重要であり、言語モデルが強力なフレームワークを提供することを示しています。
論文アドレス:https://arxiv.org/pdf/2412.10523v1