हाल ही में, HPC-AI Tech ने Open-Sora2.0 लॉन्च करने की घोषणा की, जो एक अभूतपूर्व वीडियो AI सिस्टम है जो व्यावसायिक स्तर की गुणवत्ता प्राप्त करने के लिए सामान्य प्रशिक्षण लागत के लगभग दसवें हिस्से पर ही काम करता है। यह प्रगति संसाधन-गहन वीडियो AI क्षेत्र में एक बदलाव का संकेत देती है, जो भाषा मॉडल में देखी गई दक्षता में वृद्धि के समान है।
जबकि Movie Gen और Step-Video-T2V जैसे मौजूदा उच्च-गुणवत्ता वाले वीडियो निर्माण सिस्टम को लाखों डॉलर की प्रशिक्षण लागत की आवश्यकता हो सकती है, Open-Sora2.0 की प्रशिक्षण लागत केवल लगभग 200,000 डॉलर है। लागत में भारी कमी के बावजूद, परीक्षणों से पता चलता है कि इसका आउटपुट गुणवत्ता Runway Gen-3Alpha और HunyuanVideo जैसे स्थापित व्यावसायिक सिस्टम के बराबर है। इस सिस्टम को प्रशिक्षित करने के लिए 224 Nvidia H200 GPU का उपयोग किया गया था।
संकेत: "दो महिलाएँ बेज रंग के सोफे पर बैठी हैं, कमरा आरामदायक और गर्म है, पृष्ठभूमि में ईंट की दीवार है। वे खुशी से बातचीत कर रही हैं, मुस्कुरा रही हैं, और एक करीबी मध्यम शॉट में रेड वाइन का सेवन कर रही हैं।" | वीडियो: HPC-AI Tech
Open-Sora2.0 अपनी दक्षता को एक नए तीन-चरणीय प्रशिक्षण प्रक्रिया के माध्यम से प्राप्त करता है, जो पहले कम रिज़ॉल्यूशन वीडियो से शुरू होता है और धीरे-धीरे उच्च रिज़ॉल्यूशन तक परिष्कृत होता है। Flux जैसे पूर्व-प्रशिक्षित छवि मॉडल को एकीकृत करने से संसाधन उपयोग में और सुधार होता है। इसका मूल एक वीडियो DC-AE ऑटोएन्कोडर है जो पारंपरिक तरीकों की तुलना में बेहतर संपीड़न अनुपात प्रदान करता है। इस नवाचार ने प्रशिक्षण गति में उल्लेखनीय 5.2 गुना और वीडियो निर्माण गति में दस गुना से अधिक की वृद्धि की है। हालाँकि उच्च संपीड़न अनुपात से आउटपुट विवरण में थोड़ी कमी आती है, लेकिन यह वीडियो निर्माण प्रक्रिया को बहुत तेज करता है।
संकेत: "एक टमाटर लेट्यूस के एक टुकड़े पर सर्फिंग कर रहा है, रैंच ड्रेसिंग के झरने से नीचे जा रहा है, अतिरंजित सर्फिंग क्रिया और चिकने तरंग प्रभाव 3डी एनीमेशन के मज़े को उजागर करते हैं।" | वीडियो: HPC-AI Tech
यह ओपन-सोर्स सिस्टम टेक्स्ट विवरण और एकल छवि से वीडियो उत्पन्न कर सकता है, और उपयोगकर्ताओं को उत्पन्न क्लिप में गति की तीव्रता को नियंत्रित करने के लिए एक गति स्कोरिंग फ़ंक्शन प्रदान करता है। HPC-AI Tech द्वारा दिए गए उदाहरणों में यथार्थवादी वार्तालाप और फैंसी एनीमेशन सहित विभिन्न परिदृश्य दिखाए गए हैं।
हालांकि, Open-Sora2.0 वर्तमान में रिज़ॉल्यूशन (768x768 पिक्सेल) और अधिकतम वीडियो लंबाई (5 सेकंड या 128 फ़्रेम) में सीमित है, जो OpenAI के Sora जैसे प्रमुख मॉडल की क्षमताओं से कम है। फिर भी, दृश्य गुणवत्ता, प्रॉम्प्ट सटीकता और गति संचालन जैसे प्रमुख क्षेत्रों में इसका प्रदर्शन व्यावसायिक मानकों के करीब पहुंच रहा है। उल्लेखनीय रूप से, Open-Sora2.0 का VBench स्कोर अब OpenAI के Sora से केवल 0.69% पीछे है, जो पिछले संस्करण के 4.52% अंतर की तुलना में एक उल्लेखनीय सुधार है।
संकेत: "मानवीयकृत मशरूम का एक समूह एक अंधेरे जादू के जंगल में डिस्को पार्टी कर रहा है, चमकती नियॉन रोशनी और अतिरंजित नृत्य चालों के साथ, उनकी चिकनी बनावट और परावर्तक सतह हास्यपूर्ण 3डी रूप को उजागर करती है।" | वीडियो: HPC-AI Tech
Open-Sora2.0 की लागत प्रभावशीलता रणनीति भाषा मॉडल में "डीपसीक क्षण" को प्रतिध्वनित करती है, जब बेहतर प्रशिक्षण विधियों ने ओपन-सोर्स सिस्टम को व्यावसायिक सिस्टम की तुलना में बहुत कम लागत पर व्यावसायिक स्तर का प्रदर्शन प्राप्त करने में सक्षम बनाया। यह विकास वीडियो AI क्षेत्र में कीमतों पर नीचे की ओर दबाव डाल सकता है, जो वर्तमान में उच्च संगणनात्मक आवश्यकताओं के कारण प्रति सेकंड शुल्क पर काम करता है।
प्रशिक्षण लागत तुलना: Open-Sora2.0 को लगभग 200,000 डॉलर की आवश्यकता है, जबकि Movie Gen को 2.5 मिलियन डॉलर और Step-Video-T2V को 1 मिलियन डॉलर की आवश्यकता है। | चित्र: HPC-AI Tech
इस प्रगति के बावजूद, ओपन-सोर्स और व्यावसायिक वीडियो AI के बीच प्रदर्शन का अंतर अभी भी भाषा मॉडल से अधिक है, जो इस क्षेत्र में बनी हुई तकनीकी चुनौतियों को उजागर करता है। Open-Sora2.0 अब GitHub पर एक ओपन-सोर्स प्रोजेक्ट के रूप में उपलब्ध है।