हाल ही में, मेटा ने सऊदी अरब के किंग अब्दुल्ला यूनिवर्सिटी ऑफ साइंस एंड टेक्नोलॉजी (KAUST) के साथ मिलकर एक नई वीडियो डिफ्यूजन मॉडल श्रृंखला - MarDini लॉन्च की है। यह मॉडल उच्च गुणवत्ता वाले वीडियो बनाने को और अधिक सरल और लचीला बनाता है, जो कई कार्यों को पूरा कर सकता है, जैसे वीडियो में गायब फ्रेम भरना, एकल छवि को गतिशील दृश्य में परिवर्तित करना, और यहां तक कि प्राकृतिक निरंतर फ्रेम जोड़कर छोटे खंडों को विस्तारित करना।

image.png

पिछले वर्ष के आधार पर, मेटा ने जनरेटिव एआई वीडियो क्षेत्र में और अधिक प्रयास किए हैं। पहले, उन्होंने Emu Video और Emu Edit जैसे टेक्स्ट-टू-वीडियो और संपादन मॉडल लॉन्च किए थे। MarDini को जारी करने से पहले, इस वर्ष उन्होंने उन्नत वीडियो संपादक Movie Gen भी लॉन्च किया। इससे स्पष्ट होता है कि मेटा वीडियो निर्माताओं को अधिक शक्तिशाली उपकरण प्रदान करने के लिए प्रतिबद्ध है।

MarDini की ताकत यह है कि यह किसी भी संख्या में मास्क फ्रेम के आधार पर वीडियो उत्पन्न कर सकता है, विभिन्न उत्पन्न कार्यों का समर्थन करता है, जैसे वीडियो इंटरपोलेशन, इमेज-टू-वीडियो रूपांतरण और वीडियो विस्तार।

इमेज से वीडियो परिणाम

इसमें, MarDini का मुख्य अनुप्रयोग इमेज से वीडियो उत्पन्न करना है। इस कार्य को प्रदर्शित करने के लिए, मध्य में रखे गए एक संदर्भ फ्रेम का उपयोग करते हुए 16 अतिरिक्त फ्रेम उत्पन्न किए जाते हैं। आधिकारिक उत्पन्न वीडियो उदाहरण में, 8FPS पर रेंडर किए गए 17 फ्रेम शामिल हैं, जो 2 सेकंड का सुचारु वीडियो उत्पन्न करते हैं।

वीडियो विस्तार परिणाम

MarDini किसी भी समय अवधि के मौजूदा वीडियो को समायोजित करके वीडियो का विस्तार कर सकता है। हम 5 फ्रेम के संदर्भ वीडियो से 2 सेकंड का विस्तार उत्पन्न करते हैं, प्रत्येक अनुक्रम में 12 नए फ्रेम जोड़ते हैं।

वीडियो इंटरपोलेशन परिणाम

MarDini पहले और अंतिम फ्रेम का उपयोग करके मध्य फ्रेम उत्पन्न करता है, जिससे वीडियो इंटरपोलेशन किया जाता है। जब ये सीमांत फ्रेम समान होते हैं, तो MarDini निर्बाध लूप वीडियो बना सकता है।

MarDini का काम करने का तरीका बहुत दिलचस्प है। यह उन्नत और कुशल वीडियो उत्पन्न करने की तकनीक का उपयोग करता है, जो मुख्य रूप से दो भागों में विभाजित है: योजना मॉडल और उत्पन्न मॉडल। सबसे पहले, योजना मॉडल मास्क ऑटोरेग्रेशन (MAR) विधि का उपयोग करके निम्न रिज़ॉल्यूशन इनपुट फ्रेम को समझता है, और बनाने के लिए आवश्यक फ्रेम का मार्गदर्शन सिग्नल उत्पन्न करता है। फिर, हल्का उत्पन्न मॉडल विस्तार प्रक्रिया के माध्यम से उच्च रिज़ॉल्यूशन के विस्तृत फ्रेम उत्पन्न करता है, जिससे अंतिम वीडियो सुचारु और दृश्य रूप से अच्छा होता है।

कई जटिल पूर्व-प्रशिक्षित छवि मॉडल की आवश्यकता वाले वीडियो मॉडलों के विपरीत, MarDini का दावा है कि यह शून्य से बिना लेबल वाले वीडियो डेटा का उपयोग करके प्रशिक्षण कर सकता है। इसका कारण यह है कि यह प्रगतिशील प्रशिक्षण रणनीति का उपयोग करता है, जो प्रशिक्षण प्रक्रिया के दौरान फ्रेम के मास्किंग तरीके को लचीले ढंग से समायोजित करता है, जिससे मॉडल विभिन्न फ्रेम कॉन्फ़िगरेशन को बेहतर तरीके से संभाल सकता है।

MarDini की एक महत्वपूर्ण विशेषता इसकी लचीलापन और प्रदर्शन है। यह न केवल शक्तिशाली और कुशल है, बल्कि बड़े पैमाने के कार्यों के लिए भी उपयुक्त है। यह मॉडल वीडियो इंटरपोलेशन, इमेज-टू-वीडियो जनरेशन और वीडियो विस्तार जैसे विभिन्न कार्यों को संभाल सकता है, चाहे वह मौजूदा वीडियो क्लिप को सुचारु बनाना हो या पूरी श्रृंखला को शून्य से बनाना हो, यह आसानी से कर सकता है।

प्रदर्शन के मामले में, MarDini ने उच्च गुणवत्ता वाले वीडियो उत्पन्न करने के लिए कम चरणों में नए मानक स्थापित किए हैं, जिससे यह लागत और समय के मामले में अधिक जटिल विकल्पों की तुलना में अधिक लाभदायक हो जाता है। आधिकारिक शोध पत्र में उल्लेख किया गया है, "हमारा शोध दिखाता है कि हमारी मॉडलिंग रणनीति विभिन्न इंटरपोलेशन और एनिमेशन बेंचमार्क पर प्रतिस्पर्धात्मक प्रदर्शन दिखाती है, जबकि तुलनात्मक पैरामीटर स्केल पर गणना की आवश्यकताओं को कम करती है।"

परियोजना का प्रवेश: https://mardini-vidgen.github.io/

महत्वपूर्ण बिंदु:  

✨ MarDini मेटा और KAUST द्वारा पेश किया गया नई पीढ़ी का वीडियो जनरेशन मॉडल है, जो विभिन्न वीडियो निर्माण कार्यों को सरलता से पूरा करने में सक्षम है।  

🎥 यह मॉडल योजना और उत्पादन मॉडल के संयोजन के माध्यम से कुशल वीडियो इंटरपोलेशन और इमेज-टू-वीडियो जनरेशन को प्राप्त करता है।  

💡 MarDini कम चरणों में उच्च गुणवत्ता वाले वीडियो उत्पन्न करता है, जो निर्माण की लचीलापन और दक्षता को महत्वपूर्ण रूप से बढ़ाता है।