スタンフォード大学研究チームが開発した、3D人体動作における言語と非言語を統合する多様なモダリティを扱う言語モデルフレームワークです。テキスト、音声、動作を含む多様なモダリティデータを理解・生成し、自然なコミュニケーションが可能なバーチャルキャラクターの作成に不可欠です。ゲーム、映画、仮想現実などの分野で幅広く活用できます。柔軟性の高さ、少ないトレーニングデータで済むこと、編集可能なジェスチャー生成や動作からの感情予測といった新たなタスクを可能にする点が主な利点です。