आज, अलीबाबा ने आधिकारिक तौर पर अपने वीडियो जनरेशन मॉडल, वांग्शियांग 2.1 मॉडल को पूरी तरह से ओपन सोर्स करने की घोषणा की है, जिसमें 14B और 1.3B दो संस्करण लॉन्च किए गए हैं। इनमें से, 14B प्रोफेशनल वर्जन उच्च प्रदर्शन वाला है, जो उद्योग में अग्रणी प्रदर्शन क्षमता प्रदान करता है और वीडियो गुणवत्ता की अत्यधिक मांग वाले परिदृश्यों को पूरा करता है; जबकि 1.3B एक्सप्रेस वर्जन उपभोक्ता-ग्रेड ग्राफिक्स कार्ड के लिए उपयुक्त है, और 8.2GB VRAM के साथ 480P उच्च-गुणवत्ता वाले वीडियो उत्पन्न कर सकता है, जो द्वितीयक मॉडल विकास और शैक्षणिक अनुसंधान के लिए उपयुक्त है।

चित्र

आधिकारिक जानकारी के अनुसार, इस बार ओपन सोर्स किया गया वांग्शियांग 2.1 जटिल गति को संभालने, वास्तविक भौतिक नियमों को पुनर्स्थापित करने, सिनेमाई बनावट में सुधार करने और निर्देश पालन को अनुकूलित करने के मामले में उल्लेखनीय लाभ दिखाता है, जो रचनाकारों, डेवलपर्स और व्यावसायिक उपयोगकर्ताओं की विविध आवश्यकताओं को पूरा कर सकता है। टोंगयी वांग्शियांग की मदद से, उपयोगकर्ता आसानी से उच्च-गुणवत्ता वाले वीडियो उत्पन्न कर सकते हैं, खासकर विज्ञापन और लघु वीडियो क्षेत्रों में, जो रचनात्मकता की उच्च मांग को पूरा करते हैं।

प्रतिष्ठित मूल्यांकन सेट VBench में, टोंगयी वांग्शियांग ने 86.22% के कुल स्कोर के साथ शीर्ष स्थान प्राप्त किया, जो सोरा, मिनिमैक्स, लूमा जैसे घरेलू और विदेशी अन्य वीडियो जनरेशन मॉडल से काफी आगे है। यह मूल्यांकन मुख्यधारा के DiT और रैखिक शोर प्रक्षेपवक्र फ्लो मिलान पैराडाइम पर आधारित है, जो मॉडल की जनरेटिव क्षमता को बढ़ाने के लिए कई तकनीकी नवाचारों का उपयोग करता है। विशेष रूप से, स्व-विकसित कुशल 3D कारण VAE मॉड्यूल ने 256 गुना नुकसान रहित वीडियो छिपी हुई स्थान संपीड़न को सफलतापूर्वक महसूस किया है, जो मनमाने ढंग से लंबे वीडियो के कुशल एन्कोडिंग और डिकोडिंग का समर्थन करता है।

QQ_1740534242356.png

वीडियो उत्पन्न करने की प्रक्रिया में, टोंगयी वांग्शियांग ने मुख्यधारा के DiT संरचना पर आधारित पूर्ण ध्यान तंत्र का उपयोग किया है, जो प्रभावी रूप से अंतरिक्ष-समय निर्भरता को मॉडल करता है, जिससे उत्पन्न वीडियो की उच्च गुणवत्ता और स्थिरता सुनिश्चित होती है। मॉडल की प्रशिक्षण रणनीति 6-चरणीय चरणबद्ध प्रशिक्षण विधि का उपयोग करती है, जो प्रारंभिक कम-रिज़ॉल्यूशन डेटा प्रशिक्षण से धीरे-धीरे उच्च-रिज़ॉल्यूशन डेटा को पेश करती है, ताकि विभिन्न परिस्थितियों में मॉडल के उत्कृष्ट प्रदर्शन को सुनिश्चित किया जा सके। इसके अलावा, टोंगयी वांग्शियांग ने डेटा प्रसंस्करण के संबंध में एक सख्त सफाई प्रक्रिया भी अपनाई है ताकि प्रशिक्षण डेटा की उच्च गुणवत्ता सुनिश्चित हो सके।

प्रशिक्षण और अनुमान दक्षता अनुकूलन के मामले में, टोंगयी वांग्शियांग ने कई उन्नत तकनीकों का उपयोग किया है, जैसे कि वितरित प्रशिक्षण रणनीति, सक्रियण मूल्य अनुकूलन और VRAM प्रबंधन, जिससे मॉडल प्रशिक्षण की स्थिरता और अनुमान दक्षता सुनिश्चित होती है। अलीबाबा क्लाउड प्रशिक्षण क्लस्टर के बुद्धिमान शेड्यूलिंग के साथ संयोजन में, मॉडल प्रशिक्षण प्रक्रिया में स्वचालित रूप से त्रुटियों का पता लगा सकता है और जल्दी से पुनः आरंभ कर सकता है, जिससे प्रशिक्षण प्रक्रिया के सुचारू संचालन को सुनिश्चित किया जा सकता है।

टोंगयी वांग्शियांग 2.1 को GitHub, Hugging Face जैसे प्लेटफॉर्म पर ओपन सोर्स किया गया है, जो कई मुख्यधारा के फ्रेमवर्क का समर्थन करता है, जिससे डेवलपर्स और शोधकर्ताओं को सुविधाजनक उपयोग अनुभव मिलता है। चाहे वह तेजी से प्रोटोटाइप विकास हो या कुशल उत्पादन परिनियोजन, टोंगयी वांग्शियांग विभिन्न उपयोगकर्ताओं की आवश्यकताओं को पूरा कर सकता है और वीडियो जनरेशन तकनीक के विकास में नई ऊर्जा का संचार करता है।

QQ_1740534298370.png

मोटा समुदाय प्रवेश द्वार:https://modelscope.cn/organization/Wan-AI

मुख्य बिंदु:

🌟 टोंगयी वांग्शियांग 2.1 ओपन सोर्स है, जो विभिन्न प्रकार की वीडियो जनरेशन आवश्यकताओं का समर्थन करता है।

🏆 VBench मूल्यांकन में 86.22% के उच्च स्कोर के साथ विजयी, अन्य मॉडल से आगे।

🚀 चरणबद्ध प्रशिक्षण और कई तकनीकी अनुकूलन का उपयोग करके, जनरेशन दक्षता और गुणवत्ता में सुधार किया गया है।