यह स्टैनफोर्ड विश्वविद्यालय की एक शोध टीम द्वारा विकसित एक बहु-मोडल भाषा मॉडल ढांचा है, जिसका उद्देश्य 3D मानव गति में मौखिक और अमौखिक भाषा को एकीकृत करना है। यह मॉडल पाठ, वाणी और गति सहित बहु-मोडल डेटा को समझने और उत्पन्न करने में सक्षम है, जो प्राकृतिक संचार करने वाले आभासी पात्रों को बनाने के लिए अत्यंत महत्वपूर्ण है, जिसका व्यापक रूप से खेल, फिल्म और आभासी वास्तविकता जैसे क्षेत्रों में उपयोग किया जाता है। इस मॉडल के मुख्य लाभों में उच्च लचीलापन, कम प्रशिक्षण डेटा आवश्यकताएँ और संपादन योग्य इशारा निर्माण और गति से भावनाओं की भविष्यवाणी जैसे नए कार्यों को अनलॉक करने की क्षमता शामिल है।