उच्च गुणवत्ता और समय निरंतर वीडियो उत्पन्न करने के लिए बहुत सारी गणना संसाधनों की आवश्यकता होती है, विशेषकर लंबे समय के विस्तार के लिए। नवीनतम प्रसार ट्रांसफार्मर मॉडल (DiTs) ने वीडियो उत्पन्न करने में महत्वपूर्ण प्रगति की है, लेकिन इसके बड़े मॉडल और जटिल ध्यान तंत्र पर निर्भरता के कारण, अनुमानित गति धीमी हो जाती है, जिससे यह चुनौती और बढ़ जाती है। इस समस्या का समाधान करने के लिए, मेटा एआई के शोधकर्ताओं ने वीडियो DiTs को तेज करने के लिए एक प्रशिक्षण-मुक्त विधि का नाम दिया है जिसे AdaCache कहा जाता है।
AdaCache का मूल विचार इस तथ्य पर आधारित है कि "सभी वीडियो समान नहीं होते", जिसका अर्थ है कि कुछ वीडियो दूसरों की तुलना में उचित गुणवत्ता प्राप्त करने के लिए कम शोर हटाने के चरणों की आवश्यकता होती है। इस आधार पर, यह विधि न केवल प्रसार प्रक्रिया के दौरान गणना परिणामों को कैश करती है, बल्कि प्रत्येक वीडियो उत्पन्न करने के लिए अनुकूलित कैशिंग रणनीतियों को भी डिज़ाइन करती है, ताकि गुणवत्ता और विलंबता के बीच के समझौते को अधिकतम किया जा सके।
शोधकर्ताओं ने आगे गति नियमितीकरण (MoReg) योजना को पेश किया, जो AdaCache में वीडियो जानकारी का उपयोग करके गति सामग्री के आधार पर गणना संसाधनों के आवंटन को नियंत्रित करता है। उच्च आवृत्ति बनावट और बहुत सारी गति सामग्री वाले वीडियो अनुक्रमों को उचित गुणवत्ता प्राप्त करने के लिए अधिक प्रसार चरणों की आवश्यकता होती है, इसलिए MoReg गणना संसाधनों का बेहतर आवंटन कर सकता है।
प्रयोगात्मक परिणाम बताते हैं कि AdaCache अनुमानित गति को महत्वपूर्ण रूप से बढ़ा सकता है (जैसे, Open-Sora720p -2s वीडियो उत्पन्न करने में गति में 4.7 गुना वृद्धि) बिना उत्पन्न गुणवत्ता का बलिदान किए। इसके अतिरिक्त, AdaCache में अच्छी सामान्यीकरण क्षमता है, जो विभिन्न वीडियो DiT मॉडल, जैसे Open-Sora, Open-Sora-Plan और Latte पर लागू किया जा सकता है। अन्य प्रशिक्षण-मुक्त तेज विधियों (जैसे ∆-DiT, T-GATE और PAB) की तुलना में, AdaCache गति और गुणवत्ता दोनों के मामले में महत्वपूर्ण लाभ प्रदान करता है।
उपयोगकर्ता अनुसंधान से पता चलता है कि अन्य विधियों की तुलना में उपयोगकर्ता AdaCache द्वारा उत्पन्न वीडियो को अधिक पसंद करते हैं और मानते हैं कि इसकी गुणवत्ता मानक मॉडल के बराबर है। यह अध्ययन AdaCache की प्रभावशीलता की पुष्टि करता है और उच्च दक्षता वाले वीडियो उत्पन्न करने के क्षेत्र में महत्वपूर्ण योगदान देता है। मेटा एआई का मानना है कि AdaCache का व्यापक उपयोग किया जा सकता है और उच्च फिडेलिटी लंबे वीडियो उत्पन्न करने की लोकप्रियता को बढ़ावा देगा।
पेपर: https://arxiv.org/abs/2411.02397
परियोजना होमपेज:
https://adacache-dit.github.io/
GitHub:
https://github.com/AdaCache-DiT/AdaCache