हाल ही में, अलीबाबा ने देर रात एक नया ओपन-सोर्स वीडियो जेनरेशन मॉडल Wan2.1 लॉन्च किया है। इस मॉडल में 14B पैरामीटर हैं, जिसकी वजह से यह तेज़ी से VBench रैंकिंग में सबसे ऊपर पहुँच गया है और वर्तमान में वीडियो जेनरेशन के क्षेत्र में सबसे आगे है। इससे पहले लॉन्च किए गए QwQ-Max के विपरीत, Wan2.1 जटिल गति के विवरणों को बेहतर तरीके से संभालता है और कई पात्रों के एक साथ नृत्य को सहजता से प्रदर्शित कर सकता है, जो अद्भुत है।
आधिकारिक प्रदर्शन में, Wan2.1 ने न केवल स्थिर छवि निर्माण में आने वाली समस्याओं को सफलतापूर्वक दूर किया है, बल्कि टेक्स्ट प्रोसेसिंग में भी नई ऊँचाइयाँ छुई हैं। सामान्य उपयोगकर्ताओं के लिए, हालाँकि 14B पैरामीटर वाले मॉडल को व्यक्तिगत उपभोक्ता-स्तरीय ग्राफिक्स कार्ड पर तैनात करना मुश्किल है, लेकिन अलीबाबा ने विशेष रूप से 1.3B का एक छोटा संस्करण भी जारी किया है जो 480P रिज़ॉल्यूशन का समर्थन करता है और इसे 12GB मेमोरी वाले 4070 ग्राफिक्स कार्ड पर आसानी से चलाया जा सकता है।
चित्र स्रोत टिप्पणी: यह चित्र AI द्वारा उत्पन्न किया गया है, और चित्र लाइसेंसिंग सेवा प्रदाता Midjourney है।
14B और 1.3B संस्करणों के अलावा, अलीबाबा ने दो अतिरिक्त वीडियो जेनरेशन मॉडल भी जारी किए हैं, जो दोनों Apache2.0 लाइसेंस का उपयोग करते हैं, जिसका अर्थ है कि उपयोगकर्ता इनका मुफ्त में व्यावसायिक उपयोग कर सकते हैं। वास्तविक संचालन में, उपयोगकर्ता अलीबाबा द्वारा प्रदान किए गए प्लेटफ़ॉर्म के माध्यम से इस मॉडल तक पहुँच सकते हैं और जल्दी से वीडियो उत्पन्न कर सकते हैं, लेकिन उपयोगकर्ताओं की संख्या में वृद्धि के कारण, कभी-कभी लंबा इंतज़ार करना पड़ सकता है। जिन उपयोगकर्ताओं के पास कुछ तकनीकी ज्ञान है, वे HuggingFace और Modu समुदाय जैसे कई तरीकों से स्वयं इंस्टॉल और डिबग कर सकते हैं।
Wan2.1 की सबसे बड़ी ख़ासियत इसकी तकनीकी नवीनता है। इस मॉडल में Diffusion Transformer आर्किटेक्चर का उपयोग किया गया है और इसमें 3D परिवर्तनशील स्वतः एन्कोडर का उपयोग किया गया है, जिसे विशेष रूप से वीडियो जेनरेशन के लिए डिज़ाइन किया गया है। कई प्रकार की संपीड़न और समानांतर रणनीतियों को शामिल करके, यह मॉडल गुणवत्ता बनाए रखते हुए पीढ़ी की दक्षता में काफी सुधार करता है। शोध से पता चलता है कि Wan की पुनर्निर्माण गति वर्तमान समान तकनीकों से 2.5 गुना अधिक है, जिससे कंप्यूटिंग संसाधनों की काफी बचत होती है।
उपयोगकर्ता अनुभव के संदर्भ में, Wan2.1 को व्यापक प्रशंसा मिली है। चाहे वह गतिशील दृश्यों में विवरण उत्पन्न करना हो या प्राकृतिक भौतिक प्रभाव, मॉडल का प्रदर्शन आश्चर्यजनक है। उपयोगकर्ता न केवल इस मॉडल के माध्यम से उच्च-गुणवत्ता वाले वीडियो काम बना सकते हैं, बल्कि टेक्स्ट की गतिशील प्रस्तुति को भी आसानी से प्राप्त कर सकते हैं, जिससे रचनात्मकता के लिए और अधिक संभावनाएँ खुलती हैं।
अलीबाबा का Wan2.1 मॉडल न केवल तकनीकी रूप से उन्नत है, बल्कि यह व्यापक रचनाकारों को अधिक रचनात्मक स्वतंत्रता भी प्रदान करता है, जो वीडियो जेनरेशन तकनीक में एक और सफलता का प्रतीक है।