क्या आपने ओपनएआई सोरा के बारे में सुना है? इसके प्रशिक्षण की लागत लाखों डॉलर में है, यह वीडियो जेनरेशन की दुनिया में एक "रोल्स रॉयस" जैसा है। अब, लूचेन टेक्नोलॉजी ने ओपन-सोरा 2.0 वीडियो जेनरेशन मॉडल को ओपन सोर्स किया है!
केवल 200,000 अमेरिकी डॉलर (लगभग 224 GPU का निवेश) की लागत से, उन्होंने 11 अरब पैरामीटर वाला एक व्यावसायिक स्तर का वीडियो जेनरेशन बड़ा मॉडल प्रशिक्षित किया है।
प्रदर्शन सीधे "OpenAI Sora" से मुकाबला करता है
ओपन-सोरा 2.0 की लागत कम होने के बावजूद, इसकी क्षमता कम नहीं है। यह हुन्युआनवीडियो और 300 अरब पैरामीटर वाले स्टेप-वीडियो जैसे उद्योग के बेंचमार्क को चुनौती देने वाला एक मजबूत प्रतिद्वंदी है। आधिकारिक मूल्यांकन VBench और उपयोगकर्ता प्राथमिकता परीक्षणों में, ओपन-सोरा 2.0 का प्रदर्शन प्रभावशाली रहा है, कई महत्वपूर्ण संकेतकों में यह लाखों डॉलर की लागत वाले बंद स्रोत मॉडलों के बराबर है।
और भी उत्साहजनक बात यह है कि VBench के मूल्यांकन में, ओपन-सोरा 2.0 और OpenAI Sora के बीच प्रदर्शन का अंतर पहले के 4.52% से घटकर केवल 0.69% रह गया है! यह लगभग प्रदर्शन में पूर्ण समानता है!
इसके अलावा, VBench में ओपन-सोरा 2.0 का स्कोर Tencent के HunyuanVideo से भी अधिक है, यह वास्तव में "नई पीढ़ी पुरानी पीढ़ी को पीछे धकेल रही है" जैसा है, कम लागत पर उच्च प्रदर्शन प्राप्त कर, ओपन सोर्स वीडियो जेनरेशन तकनीक के लिए एक नया मानक स्थापित किया है!
उपयोगकर्ता प्राथमिकता परीक्षण में, ओपन सोरा ने दृश्य प्रदर्शन, टेक्स्ट संगति और गति प्रदर्शन इन तीन महत्वपूर्ण आयामों में से कम से कम दो संकेतकों में ओपन सोर्स SOTA मॉडल HunyuanVideo और वाणिज्यिक मॉडल Runway Gen-3Alpha को पीछे छोड़ दिया।
कम लागत और उच्च प्रदर्शन का रहस्यमय हथियार
आप निश्चित रूप से उत्सुक होंगे कि ओपन-सोरा 2.0 इतनी कम लागत पर इतना उच्च प्रदर्शन कैसे प्राप्त करता है? इसके पीछे कई गुप्त हथियार हैं। सबसे पहले, ओपन सोरा टीम ने मॉडल आर्किटेक्चर में ओपन-सोरा 1.2 के डिज़ाइन के विचारों को जारी रखा है, 3D ऑटोएन्कोडर और फ्लो मैचिंग प्रशिक्षण ढांचे का उपयोग करना जारी रखा है। साथ ही, उन्होंने 3D पूर्ण ध्यान तंत्र भी पेश किया है, जिससे वीडियो जेनरेशन की गुणवत्ता में और सुधार हुआ है।
अतिउत्कृष्ट लागत अनुकूलन के लिए, ओपन-सोरा 2.0 ने कई पहलुओं से काम किया है:
- डेटा का सख्त चयन, उच्च-गुणवत्ता वाले प्रशिक्षण डेटा इनपुट सुनिश्चित करना, स्रोत से दक्षता में सुधार करना।
- कम रिज़ॉल्यूशन प्रशिक्षण को प्राथमिकता देना, गति जानकारी को कुशलतापूर्वक सीखना, गणना लागत को कम करना। याद रखें, उच्च रिज़ॉल्यूशन प्रशिक्षण की लागत कम रिज़ॉल्यूशन की तुलना में दस गुना अधिक है!
- इमेज से वीडियो जेनरेशन कार्यों को प्राथमिकता देना, मॉडल अभिसरण में तेजी लाना, प्रशिक्षण लागत को और कम करना। इसके अलावा, अनुमान चरण में, अधिक परिष्कृत दृश्य प्रभाव प्राप्त करने के लिए टेक्स्ट से इमेज फिर वीडियो (T2I2V) का उपयोग किया जा सकता है।
- उच्च दक्षता वाले समानांतर प्रशिक्षण योजना को अपनाया गया है, ColossalAI और सिस्टम स्तर के अनुकूलन के साथ, गणना संसाधन उपयोग दर में काफी वृद्धि हुई है। कुशल अनुक्रम समानांतर और ZeroDP, सूक्ष्म नियंत्रण वाले Gradient Checkpointing, प्रशिक्षण स्वत: पुनर्प्राप्ति तंत्र आदि जैसी विभिन्न "उन्नत तकनीकें" के साथ, प्रशिक्षण दक्षता में काफी वृद्धि हुई है।
यह अनुमान लगाया गया है कि बाजार में 10B से अधिक ओपन सोर्स वीडियो मॉडल की एकल प्रशिक्षण लागत लाखों डॉलर है, जबकि ओपन सोरा 2.0 ने इस लागत को 5-10 गुना कम कर दिया है। यह वीडियो जेनरेशन क्षेत्र के लिए एक वरदान है, जिससे अधिक लोगों को उच्च-गुणवत्ता वाले वीडियो जेनरेशन के अनुसंधान और विकास में भाग लेने का अवसर मिलता है।
ओपन सोर्स साझाकरण, समृद्ध पारिस्थितिकी का निर्माण
और भी प्रशंसनीय बात यह है कि ओपन-सोरा ने न केवल मॉडल कोड और वज़न को ओपन सोर्स किया है, बल्कि संपूर्ण प्रशिक्षण कोड को भी ओपन सोर्स किया है, जो निस्संदेह पूरे ओपन सोर्स पारिस्थितिकी तंत्र के विकास को बढ़ावा देगा। जैसा कि तीसरे पक्ष के तकनीकी प्लेटफॉर्म के आंकड़ों से पता चलता है, ओपन-सोरा के शैक्षणिक लेखों के उद्धरणों की संख्या छह महीनों के भीतर लगभग सौ हो गई है, और वैश्विक ओपन सोर्स प्रभाव रैंकिंग में यह पहले स्थान पर है, जो दुनिया का सबसे प्रभावशाली ओपन सोर्स वीडियो जेनरेशन प्रोजेक्ट में से एक बन गया है।
ओपन-सोरा टीम उच्च संपीड़न अनुपात वीडियो ऑटोएन्कोडर के अनुप्रयोग का भी सक्रिय रूप से पता लगा रही है ताकि अनुमान लागत को काफी कम किया जा सके। उन्होंने एक उच्च संपीड़न अनुपात (4×32×32) वीडियो ऑटोएन्कोडर को प्रशिक्षित किया है, जिससे एकल कार्ड द्वारा 768px, 5 सेकंड के वीडियो को उत्पन्न करने का अनुमान समय लगभग 30 मिनट से घटकर 3 मिनट से कम हो गया है, गति में 10 गुना वृद्धि हुई है! इसका मतलब है कि भविष्य में हम उच्च-गुणवत्ता वाली वीडियो सामग्री को तेज़ी से उत्पन्न कर सकेंगे।
लूचेन टेक्नोलॉजी द्वारा लॉन्च किया गया ओपन सोर्स वीडियो जेनरेशन मॉडल ओपन-सोरा 2.0, अपनी कम लागत, उच्च प्रदर्शन और पूर्ण ओपन सोर्स विशेषताओं के साथ, वीडियो जेनरेशन क्षेत्र में एक मजबूत "किफायती" हवा लाया है। इसके आगमन ने न केवल शीर्ष बंद स्रोत मॉडलों के साथ अंतर को कम किया है, बल्कि उच्च-गुणवत्ता वाले वीडियो जेनरेशन की दहलीज को भी कम किया है, जिससे अधिक डेवलपर्स इसमें भाग ले सकते हैं और मिलकर वीडियो जेनरेशन तकनीक के विकास को आगे बढ़ा सकते हैं।
🔗 GitHub ओपन सोर्स रिपॉजिटरी:https://github.com/hpcaitech/Open-Sora
📄तकनीकी रिपोर्ट:https://github.com/hpcaitech/Open-Sora-Demo/blob/main/paper/Open_Sora_2_tech_report.pdf