क्या आप लाखों डॉलर के वीडियो जेनरेशन मॉडल से दूर रह रहे हैं? क्या आपको लगता है कि AI वीडियो निर्माण केवल बड़ी कंपनियों का खेल है? आज, ओपन सोर्स समुदाय आपको अपनी ताकत दिखा रहा है: "नहीं!" Open-Sora2.0 नाम का एक नया ओपन सोर्स मॉडल सामने आया है, जिसने वीडियो निर्माण के "खर्चीले" नियमों को पूरी तरह से बदल दिया है। यह अविश्वसनीय है कि यह 11 अरब पैरामीटर वाला मॉडल, जिसका प्रदर्शन व्यावसायिक स्तर के मॉडल के बराबर है, केवल 200,000 अमेरिकी डॉलर (224 GPU) में प्रशिक्षित किया गया था! ध्यान रखें कि जो मॉडल लाखों डॉलर में बनते हैं, Open-Sora2.0 के सामने उनकी लागत बहुत अधिक लगती है!

Open-Sora2.0 का प्रकाशन वीडियो निर्माण क्षेत्र में एक "जन-क्रांति" है। इसमें न केवल लाखों डॉलर के मॉडल से भी बेहतर क्षमता है, बल्कि यह अपने मॉडल वज़न, इन्फ्रेंस कोड और प्रशिक्षण प्रक्रिया को पूरी तरह से खुला रखता है, जिससे उच्च-गुणवत्ता वाले वीडियो निर्माण का "पेंडोरा बॉक्स" खुल गया है। इसका मतलब है कि पहले जो AI वीडियो निर्माण तकनीक बहुत महंगी थी, अब वह सभी के लिए उपलब्ध है, और हर किसी को इस रोमांचक निर्माण लहर में शामिल होने का मौका मिलता है!

image.png

GitHub ओपन सोर्स रिपॉजिटरी:https://github.com/hpcaitech/Open-Sora

1. कठोर क्षमता: देखना ही मानना है, आँकड़े ही सब कुछ हैं

1.1 प्रभाव शानदार! Open-Sora2.0 वीडियो डेमो का पहले से ही अनुभव करें

केवल बातें नहीं, देखकर ही विश्वास होगा! Open-Sora2.0 का निर्माण प्रभाव कितना आश्चर्यजनक है? सीधे डेमो वीडियो देखें, ताकि आप "जाँच" कर सकें:

कामयाब कैमरा वर्क! सटीक हरकतें: चाहे पात्रों की सूक्ष्म हरकतें हों या दृश्यों का विशाल प्रबंधन, Open-Sora2.0 एक पेशेवर निर्देशक की तरह, हरकतों को सटीक रूप से नियंत्रित करता है, और चित्र की अभिव्यक्ति सीधे बढ़ जाती है!

उत्कृष्ट गुणवत्ता! चिकनापन अद्भुत है: 720p उच्च-परिभाषा रिज़ॉल्यूशन, 24FPS स्थिर फ्रेम दर, Open-Sora2.0 द्वारा निर्मित वीडियो, स्पष्टता और चिकनापन दोनों में अद्भुत है, बाजार में समान उत्पादों से बेहतर है, दृश्य अनुभव सीधे "उड़ान" भरता है!

दृश्य परिवर्तनशील! क्षमता पूरी तरह से खिली हुई है: ग्रामीण दृश्य, शहरी रात के दृश्य, विज्ञान कल्पना ब्रह्मांड... विभिन्न जटिल दृश्यों को Open-Sora2.0 आसानी से बना सकता है, चित्र का विवरण बहुत समृद्ध है, और कैमरा वर्क बहुत ही सहज है, यह "AI का दा विंची" है!

1.2 पैरामीटर स्केल "छोटे से बड़ा", प्रदर्शन बंद-स्रोत दिग्गजों के बराबर

Open-Sora2.0 केवल "दिखावा" नहीं है, बल्कि इसमें वास्तविक "तकनीकी कठोरता" है। केवल 11 अरब पैरामीटर के पैमाने के साथ, इसने आश्चर्यजनक ऊर्जा का प्रदर्शन किया है, और आधिकारिक मूल्यांकन मंच VBench और उपयोगकर्ता के व्यक्तिपरक मूल्यांकन में, इसने HunyuanVideo और 30B Step-Video जैसे बंद-स्रोत दिग्गजों को चुनौती देने के लिए पर्याप्त परिणाम प्राप्त किए हैं, जिसे "छोटे से बड़ा" का आदर्श माना जा सकता है!

उपयोगकर्ता ने तय किया! पसंद मूल्यांकन में सभी को पीछे छोड़ा: दृश्य प्रभाव, पाठ संगति और क्रिया प्रदर्शन के तीन आयामों में, Open-Sora2.0 के कम से कम दो संकेतक ओपन सोर्स SOTA मॉडल HunyuanVideo से बेहतर हैं, और यहां तक कि Runway Gen-3Alpha जैसे व्यावसायिक मॉडल को भी पीछे छोड़ दिया है, जिससे "कम लागत में अच्छी गुणवत्ता" साबित होता है!

VBench रैंकिंग "शक्ति प्रमाणन", प्रदर्शन छत के करीब: वीडियो निर्माण क्षेत्र की सबसे आधिकारिक VBench रैंकिंग में, Open-Sora2.0 की प्रगति की गति "रॉकेट की तरह" है। संस्करण 1.2 से 2.0 तक, OpenAI Sora बंद-स्रोत मॉडल के साथ इसका प्रदर्शन अंतर 4.52% से सीधे 0.69% तक कम हो गया है, जिसे लगभग नगण्य माना जा सकता है! इससे भी अधिक उत्साहजनक बात यह है कि VBench मूल्यांकन में Open-Sora2.0 का स्कोर Tencent HunyuanVideo से अधिक है, जो फिर से इसके "कम निवेश, उच्च उत्पादन" के विशाल लाभ को साबित करता है, और ओपन सोर्स वीडियो निर्माण तकनीक के लिए एक नया मील का पत्थर स्थापित करता है!

2. कम लागत निर्माण कहानी: ओपन सोर्स के पीछे का तकनीकी रहस्य

Open-Sora के ओपन सोर्स होने के बाद से, इसकी कुशल और उच्च-गुणवत्ता वाली वीडियो निर्माण क्षमता के कारण, यह जल्दी ही ओपन सोर्स समुदाय में "लोकप्रिय" हो गया है। लेकिन इसके साथ ही एक चुनौती भी आई है: उच्च-गुणवत्ता वाले वीडियो निर्माण के "उच्च लागत" के अभिशाप को कैसे तोड़ा जाए, ताकि अधिक लोग इसमें भाग ले सकें? Open-Sora टीम ने कठिनाइयों का सामना किया, और कई तकनीकी नवाचारों के माध्यम से, मॉडल प्रशिक्षण लागत को 5-10 गुना कम कर दिया! ध्यान रखें कि बाजार में लाखों डॉलर का प्रशिक्षण शुल्क है, Open-Sora2.0 ने केवल 200,000 अमेरिकी डॉलर में इसे पूरा कर लिया, जो "ओपन सोर्स का लागत प्रभावशीलता राजा" है!

Open-Sora ने न केवल मॉडल कोड और वज़न को ओपन सोर्स किया है, बल्कि उदारतापूर्वक पूरी प्रशिक्षण प्रक्रिया कोड को भी जारी किया है, जिससे एक जीवंत ओपन सोर्स पारिस्थितिकी तंत्र का निर्माण हुआ है। केवल छह महीनों में, Open-Sora के शैक्षणिक पत्रों के उद्धरण लगभग सौ बार हो गए हैं, और वैश्विक ओपन सोर्स प्रभाव रैंकिंग में यह शीर्ष पर है, सभी ओपन सोर्स I2V/T2V वीडियो निर्माण परियोजनाओं को पार कर गया है, और यह निर्विवाद रूप से "ओपन सोर्स वीडियो निर्माण का नेता" बन गया है।

2.1 मॉडल आर्किटेक्चर: विरासत और नवाचार का संयोजन

Open-Sora2.0 के मॉडल आर्किटेक्चर में, संस्करण 1.2 के सार को विरासत में मिला है, और साहसिक नवाचार भी किए गए हैं: 3D ऑटोएन्कोडर और फ्लो मैचिंग प्रशिक्षण ढांचे को जारी रखा गया है, और मल्टी-बिन प्रशिक्षण तंत्र को बनाए रखा गया है, यह सुनिश्चित करने के लिए कि मॉडल विभिन्न लंबाई और रिज़ॉल्यूशन के वीडियो को संभाल सकता है। साथ ही, कई "उन्नत तकनीकें" भी पेश की गई हैं, जिससे वीडियो निर्माण क्षमता और भी बेहतर हो गई है:

3D पूर्ण ध्यान तंत्र का समर्थन: वीडियो में समय और स्थान की जानकारी को अधिक सटीक रूप से पकड़ने के लिए, ताकि निर्मित वीडियो चित्र अधिक सुसंगत और विवरण अधिक समृद्ध हो।

MMDiT आर्किटेक्चर "शक्तिशाली सहायक": पाठ निर्देशों और वीडियो सामग्री के बीच संबंध को अधिक सटीक रूप से समझने के लिए, ताकि पाठ से वीडियो निर्माण की शब्दार्थ अभिव्यक्ति अधिक सटीक और उपयुक्त हो।

मॉडल स्केल 11B तक विस्तारित: बड़ी मॉडल क्षमता का मतलब है मजबूत सीखने की क्षमता और निर्माण क्षमता, और वीडियो की गुणवत्ता स्वाभाविक रूप से बेहतर हो जाएगी।

FLUX मॉडल "आधार", प्रशिक्षण दक्षता "उड़ान": ओपन सोर्स चित्र से वीडियो निर्माण मॉडल FLUX के सफल अनुभव का उपयोग करके, मॉडल को प्रारंभिक रूप दिया गया है, जिससे प्रशिक्षण समय और लागत में काफी कमी आई है, और मॉडल प्रशिक्षण दक्षता "रॉकेट की तरह" हो गई है।

2.2 कुशल प्रशिक्षण रहस्य: ओपन सोर्स पूरी प्रक्रिया, लागत में "कमी" में मदद करता है

प्रशिक्षण लागत को "न्यूनतम" स्तर पर लाने के लिए, Open-Sora2.0 ने डेटा, कंप्यूटिंग पावर और रणनीतियों के सभी पहलुओं पर काम किया है, जिसे "ओपन सोर्स का बचत विशेषज्ञ" कहा जा सकता है:

डेटा "चयनित", गुणवत्ता "सर्वश्रेष्ठ": Open-Sora टीम को "गंदा इनपुट, गंदा आउटपुट" की बात अच्छी तरह से पता है, इसलिए प्रशिक्षण डेटा को "सघन" रूप से फ़िल्टर किया गया है, यह सुनिश्चित करने के लिए कि प्रत्येक डेटा "उत्कृष्ट" है, और मॉडल प्रशिक्षण दक्षता को स्रोत से ही बेहतर बनाया गया है। बहु-चरण, बहु-स्तरीय डेटा फ़िल्टरिंग तंत्र, विभिन्न "उन्नत तकनीक" फ़िल्टर के साथ, वीडियो डेटा की गुणवत्ता को और बेहतर बनाता है, और मॉडल प्रशिक्षण के लिए सबसे अच्छा "ईंधन" प्रदान करता है।

कंप्यूटिंग पावर "बचत", कम रिज़ॉल्यूशन प्रशिक्षण "पहले": उच्च-रिज़ॉल्यूशन वीडियो प्रशिक्षण की लागत कम-रिज़ॉल्यूशन वीडियो से बहुत अधिक है, और दोनों के बीच कंप्यूटिंग पावर का अंतर अधिकतम 40 गुना तक हो सकता है! Open-Sora2.0 ने चतुराई से "सामना" करने से बचा, पहले कम रिज़ॉल्यूशन प्रशिक्षण किया, वीडियो में गति की जानकारी को कुशलतापूर्वक सीखा, लागत को कम करने के साथ-साथ यह सुनिश्चित किया कि मॉडल वीडियो निर्माण के "मूल कौशल" में महारत हासिल कर सके, जिसे "अधिक काम कम लागत" कहा जा सकता है।

रणनीति "लचीली और परिवर्तनशील", चित्र से वीडियो निर्माण "वक्र से बचाव": Open-Sora2.0 ने शुरुआत में उच्च-रिज़ॉल्यूशन वीडियो प्रशिक्षण पर "ज़ोर" नहीं दिया, बल्कि एक अधिक स्मार्ट "चतुराई भरा तरीका" अपनाया - पहले चित्र से वीडियो निर्माण मॉडल को प्रशिक्षित करना, मॉडल अभिसरण गति को तेज करना। तथ्य यह साबित करते हैं कि चित्र से वीडियो निर्माण मॉडल रिज़ॉल्यूशन को बढ़ाने के समय तेज़ी से अभिसरण करता है, और प्रशिक्षण लागत कम होती है, जिसे "एक पत्थर से दो पक्षी मारना" कहा जा सकता है। अनुमान चरण में, Open-Sora2.0 "पाठ से चित्र फिर वीडियो" (T2I2V) मोड का भी समर्थन करता है, उपयोगकर्ता पहले पाठ से उच्च-गुणवत्ता वाले चित्र उत्पन्न कर सकते हैं, और फिर चित्र को वीडियो में बदल सकते हैं, अधिक परिष्कृत दृश्य प्रभाव प्राप्त कर सकते हैं, "रोम जाने के कई रास्ते हैं"।

समानांतर प्रशिक्षण "पूर्ण शक्ति", कंप्यूटिंग पावर उपयोग दर "अंतिम बूंद तक": Open-Sora2.0 को "एक धागा कपड़ा नहीं बनाता, एक लकड़ी जंगल नहीं बनाती" अच्छी तरह से पता है, इसलिए एक कुशल समानांतर प्रशिक्षण योजना अपनाई गई है, ColossalAI और सिस्टम-स्तरीय अनुकूलन तकनीक को "पूर्ण रूप से सशस्त्र" किया गया है, गणना संसाधन उपयोग दर को अधिकतम करने के लिए, GPU क्लस्टर को "पूर्ण शक्ति" पर चलाने के लिए, अधिक कुशल वीडियो निर्माण प्रशिक्षण प्राप्त करने के लिए। कई "उन्नत तकनीकें" के समर्थन से, Open-Sora2.0 की प्रशिक्षण दक्षता "रॉकेट की तरह" हो गई है, और लागत में काफी कमी आई है:

क्रमिक समानांतर + ZeroDP: बड़े पैमाने पर मॉडल वितरित गणना दक्षता का अनुकूलन करें, "अधिक लोग अधिक शक्ति" प्राप्त करें।

सूक्ष्म ग्रेडिएंट चेकपॉइंटिंग: मेमोरी उपयोग को कम करते हुए, गणना दक्षता को बनाए रखें, "बचत और कुशलता" प्राप्त करें।

प्रशिक्षण स्वत: पुनर्प्राप्ति तंत्र: 99% से अधिक प्रभावी प्रशिक्षण समय सुनिश्चित करें, संसाधन अपव्यय को कम करें, "स्थिर और विश्वसनीय" प्राप्त करें।

कुशल डेटा लोडिंग + मेमोरी प्रबंधन: I/O का अनुकूलन करें, प्रशिक्षण रुकावट को रोकें, प्रशिक्षण प्रक्रिया को तेज करें, "तेजी से आगे बढ़ना" प्राप्त करें।

अतुल्यकालिक मॉडल बचत: प्रशिक्षण में मॉडल भंडारण के हस्तक्षेप को कम करें, GPU उपयोग दर में सुधार करें, "एक मन से कई काम" प्राप्त करें।

ऑपरेटर अनुकूलन: प्रमुख गणना मॉड्यूल के लिए गहन अनुकूलन, प्रशिक्षण प्रक्रिया को तेज करें, "गति और दक्षता में सुधार" प्राप्त करें।

इन अनुकूलन उपायों के "संयुक्त हमले" के बाद, Open-Sora2.0 ने उच्च प्रदर्शन और कम लागत के बीच एकदम सही संतुलन पाया है, उच्च-गुणवत्ता वाले वीडियो निर्माण मॉडल की प्रशिक्षण दहलीज को काफी कम कर दिया है, ताकि अधिक लोग इस तकनीकी उत्सव में भाग ले सकें।

2.3 उच्च संपीड़न अनुपात AE "शक्तिशाली सहायक", अनुमान गति "और तेज़"

प्रशिक्षण लागत कम करना पर्याप्त नहीं है, अनुमान गति को भी बनाए रखना होगा! Open-Sora2.0 भविष्य पर ध्यान केंद्रित करता है, उच्च संपीड़न अनुपात वीडियो ऑटोएन्कोडर (AE) के अनुप्रयोग का पता लगाता है, अनुमान लागत को और कम करता है, और वीडियो निर्माण गति में सुधार करता है। वर्तमान में, मुख्यधारा के वीडियो मॉडल 4×8×8 ऑटोएन्कोडर का उपयोग करते हैं, 768px, 5 सेकंड का वीडियो उत्पन्न करते हैं, और एकल कार्ड में लगभग 30 मिनट का समय लगता है, अनुमान दक्षता में सुधार की आवश्यकता है। Open-Sora2.0 ने एक उच्च संपीड़न अनुपात (4×32×32) वीडियो ऑटोएन्कोडर को प्रशिक्षित किया है, जिससे अनुमान समय एकल कार्ड में 3 मिनट से कम हो गया है, गति में 10 गुना वृद्धि हुई है! यह "प्रकाश की गति" निर्माण है!