Il s'agit d'un framework de modèle linguistique multimodal développé par une équipe de recherche de l'Université de Stanford, visant à unifier le langage verbal et non verbal dans les mouvements corporels 3D. Ce modèle est capable de comprendre et de générer des données multimodales incluant du texte, de la voix et des mouvements, ce qui est crucial pour la création de personnages virtuels capables de communiquer naturellement. Il trouve une large application dans les jeux vidéo, le cinéma et la réalité virtuelle. Ses principaux avantages incluent une grande flexibilité, des besoins réduits en données d'entraînement et la possibilité de débloquer de nouvelles tâches comme la génération de gestes co-énonciatifs éditables et la prédiction des émotions à partir des mouvements.