डिजिटल मीडिया युग में, वीडियो हमारे आप को व्यक्त करने और कहानियाँ साझा करने का मुख्य तरीका बन गया है। लेकिन उच्च गुणवत्ता वाले वीडियो बनाने के लिए अक्सर पेशेवर कौशल और महंगे उपकरणों की आवश्यकता होती है। अब, Snap Video के माध्यम से, आपको बस उस दृश्य का टेक्स्ट विवरण देना है जिसे आप चाहते हैं, और वीडियो स्वचालित रूप से उत्पन्न हो जाएगा।
वर्तमान छवि उत्पन्न करने वाले मॉडल उत्कृष्ट गुणवत्ता और विविधता का प्रदर्शन कर चुके हैं। इस प्रेरणा से, शोधकर्ता इन मॉडलों को वीडियो उत्पन्न करने में लागू करने लगे हैं। हालाँकि, वीडियो सामग्री की उच्च मात्रा के कारण, छवि मॉडल को सीधे वीडियो उत्पन्न करने के क्षेत्र में लागू करने से क्रियाओं की वास्तविकता, दृश्य गुणवत्ता और विस्तारशीलता में कमी आ सकती है।
Snap Video एक वीडियो-केंद्रित मॉडल है जो इन चुनौतियों का प्रणालीगत समाधान प्रदान करता है। सबसे पहले, यह EDM ढांचे को विस्तारित करता है, जिसमें स्थान और समय पर निहित पिक्सेल को ध्यान में रखा जाता है, जो स्वाभाविक रूप से वीडियो उत्पन्न करने का समर्थन करता है। दूसरा, यह एक नए प्रकार की ट्रांसफार्मर आधारित आर्किटेक्चर प्रस्तुत करता है, जो U-Net की तुलना में 3.31 गुना तेजी से प्रशिक्षण और 4.5 गुना तेजी से अनुमान लगाता है। इससे Snap Video को अरबों पैरामीटर वाले टेक्स्ट से वीडियो मॉडल को प्रभावी ढंग से प्रशिक्षित करने में सक्षम बनाता है, जो पहली बार अत्याधुनिक परिणाम प्राप्त करता है, और उच्च गुणवत्ता, समय की संगति और क्रिया की जटिलता में उल्लेखनीय वीडियो उत्पन्न करता है।
तकनीकी विशेषताएँ:
स्थान-काल संयुक्त मॉडलिंग: Snap Video बड़े पैमाने पर आंदोलन वाले संगत वीडियो को संश्लेषित कर सकता है, जबकि बड़े पैमाने पर टेक्स्ट से वीडियो उत्पन्न करने वाले यंत्र की अर्थ संबंधी नियंत्रण क्षमता को बनाए रखता है।
उच्च रिज़ॉल्यूशन वीडियो उत्पन्न करना: दो चरणों वाले कैस्केड मॉडल का उपयोग करते हुए, पहले निम्न रिज़ॉल्यूशन वीडियो उत्पन्न किया जाता है, फिर उच्च रिज़ॉल्यूशन अपसैंपलिंग किया जाता है, जिससे संभावित समय की असंगति की समस्या से बचा जाता है।
FIT आधारित आर्किटेक्चर: Snap Video ने FIT (Far-reaching Interleaved Transformers) आर्किटेक्चर का उपयोग किया है, जो संकुचित वीडियो प्रतिनिधित्व को सीखकर कुशल समय-स्थान गणना संयुक्त मॉडलिंग को सक्षम बनाता है।
Snap Video ने UCF101 और MSR-VTT जैसे व्यापक रूप से अपनाए गए डेटासेट पर मूल्यांकन किया है, जो क्रियाओं की गुणवत्ता उत्पन्न करने में विशेष रूप से लाभदायक साबित हुआ है। उपयोगकर्ता अनुसंधान ने भी यह दर्शाया है कि Snap Video वीडियो टेक्स्ट संरेखण, क्रियाओं की संख्या और गुणवत्ता के मामले में नवीनतम विधियों से बेहतर है।
पत्र में वीडियो उत्पन्न करने के क्षेत्र में अन्य शोध कार्यों पर भी चर्चा की गई है, जिसमें प्रतिकारी प्रशिक्षण या स्व-संबंधित उत्पन्न तकनीकों के आधार पर विधियाँ और हाल ही में टेक्स्ट से वीडियो उत्पन्न करने के कार्य में फैलाव मॉडल के उपयोग में प्रगति शामिल है।
Snap Video ने वीडियो को एक प्रमुख नागरिक के रूप में मानते हुए, टेक्स्ट से वीडियो उत्पन्न करने में फैलाव प्रक्रिया और आर्किटेक्चर के सामान्य मुद्दों को प्रणालीगत रूप से हल किया है। इसने जो EDM फैलाव ढांचे में संशोधन और FIT आधारित आर्किटेक्चर प्रस्तुत किया है, वह वीडियो उत्पन्न करने की गुणवत्ता और विस्तारशीलता को महत्वपूर्ण रूप से बढ़ाता है।
पत्र का पता: https://arxiv.org/pdf/2402.14797