हाल ही में, टोंगयी ने अपने नवीनतम टोंगयी वान्शियांग बड़े मॉडल Wan2.1 को ओपन सोर्स किया है। Wan2.1 एक उच्च-गुणवत्ता वाले वीडियो निर्माण के लिए समर्पित AI मॉडल है, जो जटिल गति को संभालने, वास्तविक भौतिक नियमों को पुनर्स्थापित करने, फिल्म की गुणवत्ता में सुधार करने और निर्देशों के पालन को अनुकूलित करने में अपने उत्कृष्ट प्रदर्शन के कारण रचनाकारों, डेवलपर्स और व्यावसायिक उपयोगकर्ताओं के लिए AI युग को अपनाने का एक प्रमुख उपकरण बन गया है।
आधिकारिक मूल्यांकन सेट Vbench में, टोंगयी वान्शियांग Wan2.1 ने कुल 86.22% स्कोर के साथ शीर्ष स्थान प्राप्त किया, जो Sora, Minimax, Luma, Gen3 और Pika जैसे घरेलू और विदेशी अन्य प्रसिद्ध वीडियो निर्माण मॉडल से काफी आगे है। यह उपलब्धि Wan2.1 के मुख्य DiT और रैखिक शोर पथ Flow Matching प्रतिमान पर आधारित है, जिसने तकनीकी नवाचारों की एक श्रृंखला के माध्यम से पीढ़ी की क्षमता में महत्वपूर्ण प्रगति की है। इसमें, स्व-विकसित कुशल 3D कारण VAE मॉड्यूल ने 256 गुना नुकसान रहित वीडियो छिपे हुए स्थान संपीड़न को लागू किया है, और सुविधा कैशिंग तंत्र के माध्यम से मनमाने ढंग से लंबे वीडियो के कुशल एन्कोडिंग और डिकोडिंग का समर्थन करता है, साथ ही 29% अनुमान समय मेमोरी उपयोग को कम करता है। इसके अतिरिक्त, यह मॉडल एकल A800GPU वातावरण में, मौजूदा सबसे उन्नत विधियों की तुलना में 2.5 गुना तेज वीडियो पुनर्निर्माण गति दिखाता है, जो एक उल्लेखनीय प्रदर्शन लाभ प्रदर्शित करता है।
Wan2.1 का वीडियो Diffusion Transformer आर्किटेक्चर पूर्ण ध्यान तंत्र के माध्यम से लंबे समय तक चलने वाली स्थानिक और लौकिक निर्भरता को प्रभावी ढंग से मॉडल करता है, उच्च-गुणवत्ता वाले और स्थानिक और लौकिक रूप से सुसंगत वीडियो उत्पन्न करता है। इसकी प्रशिक्षण रणनीति 6-चरणीय चरणबद्ध प्रशिक्षण विधि को अपनाती है, जो कम-रिज़ॉल्यूशन छवि डेटा के पूर्व-प्रशिक्षण से धीरे-धीरे उच्च-रिज़ॉल्यूशन वीडियो डेटा के प्रशिक्षण में बदल जाती है, और अंत में उच्च-गुणवत्ता वाले लेबल वाले डेटा के माध्यम से ठीक-ठीक समायोजित किया जाता है, जिससे विभिन्न रिज़ॉल्यूशन और जटिल परिदृश्यों में मॉडल का उत्कृष्ट प्रदर्शन सुनिश्चित होता है। डेटा प्रसंस्करण के संदर्भ में, Wan2.1 ने चार-चरणीय डेटा सफाई प्रक्रिया तैयार की है, जो मूल आयामों, दृश्य गुणवत्ता और गति गुणवत्ता पर ध्यान केंद्रित करती है, ताकि शोर वाले प्रारंभिक डेटासेट से उच्च-गुणवत्ता वाले और विविध डेटा को फ़िल्टर किया जा सके और प्रभावी प्रशिक्षण को बढ़ावा दिया जा सके।
मॉडल प्रशिक्षण और अनुमान दक्षता अनुकूलन के संदर्भ में, Wan2.1 ने कई रणनीतियों को अपनाया है। प्रशिक्षण चरण में, पाठ, वीडियो एन्कोडिंग मॉड्यूल और DiT मॉड्यूल के लिए, विभिन्न वितरित रणनीतियों का उपयोग किया जाता है, और कुशल रणनीति स्विचिंग के माध्यम से गणना अतिरेक से बचा जाता है। वीडियो मेमोरी अनुकूलन के संदर्भ में, एक स्तरित वीडियो मेमोरी अनुकूलन रणनीति का उपयोग किया जाता है, जो PyTorch वीडियो मेमोरी प्रबंधन तंत्र के साथ मिलकर वीडियो मेमोरी विखंडन समस्या को हल करता है। अनुमान चरण में, बहु-कार्ड वितरित त्वरण के लिए FSDP और 2D CP के संयोजन का उपयोग किया जाता है, और मात्राकरण विधि के माध्यम से प्रदर्शन को और बढ़ाया जाता है।
वर्तमान में, टोंगयी वान्शियांग Wan2.1 को GitHub, Hugging Face और Moda समुदाय जैसे प्लेटफॉर्म पर ओपन सोर्स किया गया है, जो कई मुख्यधारा के ढांचों का समर्थन करता है। डेवलपर्स और शोधकर्ता Gradio के माध्यम से जल्दी से अनुभव कर सकते हैं, या xDiT समानांतर त्वरण अनुमान का उपयोग दक्षता में सुधार करने के लिए कर सकते हैं। साथ ही, यह मॉडल Diffusers और ComfyUI में तेजी से एकीकृत हो रहा है, ताकि एक-क्लिक अनुमान और परिनियोजन प्रक्रिया को सरल बनाया जा सके, विकास की बाधा को कम किया जा सके, और उपयोगकर्ताओं को लचीला विकल्प प्रदान किया जा सके, चाहे वह त्वरित प्रोटोटाइप विकास हो या कुशल उत्पादन परिनियोजन, इसे आसानी से लागू किया जा सकता है।
Github:https://github.com/Wan-Video
HuggingFace:https://huggingface.co/Wan-AI
ऑनलाइन अनुभव:https://tongyi.aliyun.com/wanxiang