कृत्रिम बुद्धिमत्ता प्रौद्योगिकी के तेजी से विकास के साथ, चित्र से वीडियो (I2V) उत्पन्न करने की तकनीक अनुसंधान का एक प्रमुख क्षेत्र बन गई है। हाल ही में, Xiaoyu Shi, Zhaoyang Huang और अन्य शोधकर्ताओं की एक टीम ने Motion-I2V नामक एक नई रूपरेखा पेश की है, जो स्पष्ट गति मॉडलिंग के माध्यम से चित्र से वीडियो उत्पन्न करने में अधिक सुसंगत और नियंत्रित परिणाम प्राप्त करती है। यह तकनीकी प्रगति न केवल वीडियो उत्पन्न करने की गुणवत्ता और सुसंगतता को बढ़ाती है, बल्कि उपयोगकर्ताओं को अभूतपूर्व नियंत्रण अनुभव भी प्रदान करती है।

चित्र से वीडियो उत्पन्न करने के क्षेत्र में, उत्पन्न वीडियो की निरंतरता और नियंत्रण बनाए रखना हमेशा एक तकनीकी चुनौती रही है। पारंपरिक I2V विधियाँ सीधे चित्र से वीडियो के जटिल मानचित्रण को सीखती हैं, जबकि Motion-I2V रूपरेखा इस प्रक्रिया को दो चरणों में विभाजित करने के लिए नवोन्मेषी ढंग से कार्य करती है और दोनों चरणों में स्पष्ट गति मॉडलिंग को शामिल करती है।

पहले चरण में, Motion-I2V ने एक फैलाव आधारित गति क्षेत्र पूर्वानुमानक प्रस्तुत किया, जो संदर्भ चित्र के पिक्सेल के पथ को निकालने पर केंद्रित है। इस चरण की कुंजी यह है कि संदर्भ चित्र और पाठ संकेतों के माध्यम से, संदर्भ फ़्रेम और सभी भविष्य के फ़्रेमों के बीच गति क्षेत्र मानचित्र का पूर्वानुमान किया जाता है। दूसरे चरण में संदर्भ चित्र की सामग्री को संश्लेषित फ़्रेम में प्रसारित करने की जिम्मेदारी होती है। एक नई गति बढ़ाने वाली अनुक्रमिक परत को शामिल करके, 1-D अनुक्रमिक ध्यान को बढ़ाया गया है, समय की ग्रहणशीलता का विस्तार किया गया है, और जटिल समय-स्थान पैटर्न को सीधे सीखने की जटिलता को कम किया गया है।

वर्तमान विधियों की तुलना में, Motion-I2V ने स्पष्ट लाभ प्रदर्शित किया है। चाहे "तेज चलने वाला टैंक", "नीली बीएमडब्ल्यू तेजी से चल रही", "तीन स्पष्ट बर्फ के टुकड़े" या "स्लग" जैसे दृश्यों में, Motion-I2V अधिक सुसंगत वीडियो उत्पन्न कर सकता है, यहां तक कि बड़े पैमाने पर गति और दृष्टिकोण में परिवर्तन के तहत भी उच्च गुणवत्ता का उत्पादन बनाए रखता है।

इसके अलावा, Motion-I2V उपयोगकर्ताओं कोSparse ट्रैक और क्षेत्रीय टिप्पणियों के माध्यम से गति पथ और गति क्षेत्र को सटीक रूप से नियंत्रित करने की अनुमति देता है, जो केवल पाठ निर्देशों पर निर्भर होने की तुलना में अधिक नियंत्रण क्षमता प्रदान करता है। यह न केवल उपयोगकर्ता की इंटरैक्शन अनुभव को बढ़ाता है, बल्कि वीडियो उत्पन्न करने की अनुकूलन और व्यक्तिगतकरण के लिए संभावनाएं भी प्रदान करता है।

image.png

यह उल्लेखनीय है कि Motion-I2V के दूसरे चरण में बिना प्रशिक्षण नमूनों के भी वीडियो से वीडियो में परिवर्तन को स्वाभाविक रूप से समर्थन दिया गया है, जिसका अर्थ है कि विभिन्न शैलियों या सामग्री के वीडियो परिवर्तन को बिना किसी प्रशिक्षण नमूने के भी किया जा सकता है।

image.png

 Motion-I2V रूपरेखा का शुभारंभ चित्र से वीडियो उत्पन्न करने की तकनीक में एक नए चरण की शुरुआत का संकेत देता है। यह न केवल गुणवत्ता और सुसंगतता में महत्वपूर्ण सुधार करता है, बल्कि उपयोगकर्ता नियंत्रण और व्यक्तिगतकरण के मामले में भी विशाल संभावनाएँ प्रदर्शित करता है। तकनीक के लगातार परिपक्व और सुधार के साथ, हमें विश्वास है कि Motion-I2V फिल्म निर्माण, आभासी वास्तविकता, गेम विकास और अन्य क्षेत्रों में महत्वपूर्ण भूमिका निभाएगा, जिससे लोगों को और अधिक समृद्ध और जीवंत दृश्य अनुभव प्रदान करेगा।

दस्तावेज़ का पता: https://xiaoyushi97.github.io/Motion-I2V/ 

गिटहब का पता:  https://github.com/G-U-N/Motion-I2V