हाल ही में, NVIDIA ने एक नया वीडियो जनरेशन मॉडल लॉन्च किया है जिसका नाम Magic1-For-1 है। यह मॉडल अद्भुत गति और दक्षता के साथ, AI वीडियो निर्माण की हमारी समझ को फिर से परिभाषित करता है। इस मॉडल की सबसे उल्लेखनीय विशेषता यह है कि यह एक मिनट के भीतर एक मिनट लंबा पूर्ण वीडियो सामग्री उत्पन्न कर सकता है, वास्तव में "तुरंत उत्पादन" का "जादुई" प्रभाव प्राप्त करता है।

image.png

जानकारी के अनुसार, Magic1-For-1 मॉडल का मुख्य नवाचार यह है कि यह जटिल "टेक्स्ट से वीडियो" जनरेशन कार्य को दो अधिक प्रबंधनीय विस्तार चरणों में विभाजित करता है - "टेक्स्ट से इमेज जनरेशन" और "इमेज से वीडियो जनरेशन"। यह विभाजन रणनीति न केवल मॉडल के प्रशिक्षण की कठिनाई को कम करती है, बल्कि जनरेशन की गति और दक्षता को भी काफी बढ़ाती है। शोधकर्ताओं का कहना है कि समान ऑप्टिमाइजेशन एल्गोरिदम के तहत, Magic1-For-1 मॉडल की पूरी जनरेशन प्रक्रिया को संकुचित करना आसान है, जिससे वीडियो जनरेशन तेज और अधिक स्थिर हो जाता है।

यह क्रांतिकारी तकनीक NVIDIA द्वारा अकेले नहीं की गई है, बल्कि यह बीजिंग विश्वविद्यालय और Hedra Inc. जैसे अनुसंधान संस्थानों की टीम द्वारा संयुक्त रूप से विकसित की गई है। उन्होंने "Magic1-For-1" मॉडल के मुख्य विचार को "जटिलता को सरल बनाना" के रूप में संक्षिप्त किया है। टेक्स्ट से वीडियो के जटिल प्रक्रिया को दो सरल चरणों में विभाजित करके, शोध टीम ने "टेक्स्ट से इमेज जनरेशन" की अपेक्षाकृत परिपक्व और कुशल विशेषताओं का पूरी तरह से लाभ उठाया, जिससे पूरे वीडियो जनरेशन की प्रक्रिया में तेजी आई। इस विधि की सफलता केवल समय की बचत में नहीं है, बल्कि इसने मेमोरी खपत और इनफेरेंस लेटेंसी को प्रभावी ढंग से अनुकूलित किया है, जिससे उच्च गुणवत्ता वाले वीडियो उत्पन्न करने की प्रक्रिया अधिक सुचारू और कुशल हो गई है।

तकनीकी कार्यान्वयन स्तर पर, "Magic1-For-1" मॉडल ने उन्नत स्टेप डिस्टिलेशन एल्गोरिदम का उपयोग किया है, जिसका उद्देश्य एक "जनरेटर" मॉडल को प्रशिक्षित करना है, ताकि वह कुछ ही स्टेप्स में उच्च गुणवत्ता वाला वीडियो उत्पन्न कर सके। इस लक्ष्य को प्राप्त करने के लिए, शोध टीम ने दो सहायक मॉडलों को कुशलतापूर्वक डिजाइन किया है, जो वास्तविक डेटा वितरण और जनरेटेड डेटा वितरण का अनुमान लगाने के लिए हैं। इन वितरणों को सटीक रूप से संरेखित करके, "जनरेटर" मॉडल अधिक प्रभावी ढंग से सीखने और अधिक यथार्थवादी वीडियो सामग्री उत्पन्न करने में सक्षम होता है। इसके अलावा, इस मॉडल ने नवोन्मेषी रूप से CFG डिस्टिलेशन तकनीक को भी पेश किया है, जिसने इनफेरेंस प्रक्रिया में गणना के खर्च को कम कर दिया है, जिससे वीडियो गुणवत्ता की सुनिश्चितता के साथ जनरेशन की गति में एक बड़ा छलांग संभव हो गया है।

“Magic1-For-1” मॉडल के प्रभावशाली प्रदर्शन को स्पष्ट रूप से प्रदर्शित करने के लिए, शोधकर्ताओं ने शानदार डेमो प्रस्तुत किया। परिणाम दर्शाते हैं कि यह मॉडल केवल 50 स्टेप्स या यहां तक कि 4 स्टेप्स में भी शानदार उच्च गुणवत्ता वाले वीडियो उत्पन्न कर सकता है। इनमें से, 50 स्टेप्स संस्करण के वीडियो में समृद्ध गति और संरचना के विवरण दिखाए गए हैं, जो दृश्य को जीवंत और बारीक बनाते हैं; जबकि 4 स्टेप्स संस्करण अधिक मॉडल की दक्षता को प्रदर्शित करता है, इसकी जनरेशन की गति अविश्वसनीय रूप से तेज है। और भी अद्भुत यह है कि स्लाइडिंग विंडो विधि के माध्यम से, "Magic1-For-1" मॉडल एक मिनट तक के अद्भुत वीडियो उत्पन्न कर सकता है, और साथ ही उत्कृष्ट दृश्य गुणवत्ता और सुचारू गति प्रदर्शन की गारंटी देता है।

“Magic1-For-1” मॉडल का आगमन न केवल वीडियो निर्माण क्षेत्र में क्रांतिकारी परिवर्तन लाता है, बल्कि भविष्य के डिजिटल सामग्री उत्पादन तकनीक के विकास के लिए नई दृष्टि और दिशा भी प्रदान करता है। यह स्पष्ट है कि इस तकनीक के निरंतर प्रसार और अनुप्रयोग के साथ, यह निश्चित रूप से अधिक रचनाकारों और डेवलपर्स का ध्यान आकर्षित करेगा, और संपूर्ण AI वीडियो जनरेशन उद्योग के तेजी से विकास और समृद्धि को मजबूती से बढ़ावा देगा।

प्रोजेक्ट का पता: https://magic-141.github.io/Magic-141/