लूपी एक एंड-टू-एंड ऑडियो-संचालित वीडियो डिफ्यूज़न मॉडल है, जिसे विशेष रूप से क्रॉस-क्लिप और आंतरिक क्लिप समय मॉड्यूल और ऑडियो-टू-लेटेंट प्रतिनिधित्व मॉड्यूल के लिए डिज़ाइन किया गया है, जिससे मॉडल डेटा में दीर्घकालिक गति जानकारी का उपयोग करके प्राकृतिक गति पैटर्न सीख सकता है और ऑडियो और पोर्ट्रेट गति के बीच संबंध को बेहतर बना सकता है। यह विधि मौजूदा विधियों में मैन्युअल रूप से निर्दिष्ट स्थानिक गति टेम्पलेट की आवश्यकता को समाप्त करती है, जिससे विभिन्न परिदृश्यों में अधिक यथार्थवादी और उच्च-गुणवत्ता वाले परिणाम प्राप्त होते हैं।