आज, ज़ीपु टेक्नोलॉजी टीम ने अपने नवीनतम वीडियो जनरेशन मॉडल CogVideoX v1.5 को जारी किया और इसे ओपन-सोर्स किया। यह संस्करण अगस्त के बाद से ज़ीपु टेक्नोलॉजी टीम द्वारा पेश किए गए CogVideoX श्रृंखला में एक महत्वपूर्ण प्रगति है।
जानकारी के अनुसार, इस अपडेट ने वीडियो जनरेशन क्षमता को काफी बढ़ा दिया है, जिसमें 5 सेकंड और 10 सेकंड की वीडियो लंबाई, 768P का रिज़ॉल्यूशन और 16 फ्रेम की जनरेशन क्षमता शामिल है। साथ ही, I2V (इमेज से वीडियो) मॉडल किसी भी आकार के अनुपात का समर्थन करता है, जिससे जटिल अर्थों की समझ को और बढ़ाया गया है।
CogVideoX v1.5 में दो प्रमुख मॉडल शामिल हैं: CogVideoX v1.5-5B और CogVideoX v1.5-5B-I2V, जो डेवलपर्स को अधिक शक्तिशाली वीडियो जनरेशन टूल प्रदान करने के लिए डिज़ाइन किए गए हैं।
अधिक ध्यान देने योग्य बात यह है कि CogVideoX v1.5 को क्यूंगयिंग प्लेटफॉर्म पर लॉन्च किया जाएगा और नए लॉन्च किए गए CogSound ऑडियो मॉडल के साथ मिलकर “नया क्यूंगयिंग” बनेगा। नया क्यूंगयिंग कई विशेष सेवाएँ प्रदान करेगा, जिसमें वीडियो गुणवत्ता में महत्वपूर्ण सुधार, सौंदर्य प्रदर्शन और गति की तर्कसंगतता शामिल है, जो 10 सेकंड, 4K, 60 फ्रेम की उच्च गुणवत्ता वाली वीडियो जनरेशन का समर्थन करता है।
आधिकारिक विवरण इस प्रकार है:
गुणवत्ता में सुधार: वीडियो जनरेशन की गुणवत्ता, सौंदर्य प्रदर्शन, गति की तर्कसंगतता और जटिल संकेत शब्दों की अर्थ समझने की क्षमता में महत्वपूर्ण वृद्धि हुई है।
अत्यधिक उच्च रिज़ॉल्यूशन: 10 सेकंड, 4K, 60 फ्रेम की उच्च गुणवत्ता वाली वीडियो जनरेशन का समर्थन करता है।
परिवर्तनीय अनुपात: किसी भी अनुपात का समर्थन करता है, जिससे विभिन्न प्लेइंग सीन के लिए अनुकूलन किया जा सके।
बहु-चैनल आउटपुट: एक ही आदेश/चित्र से एक बार में 4 वीडियो जनरेट कर सकता है।
ध्वनि प्रभाव के साथ AI वीडियो: नया क्यूंगयिंग दृश्य के साथ मेल खाते हुए ध्वनि प्रभाव उत्पन्न कर सकता है।
डेटा प्रोसेसिंग के मामले में, CogVideoX टीम ने डेटा गुणवत्ता को बढ़ाने पर ध्यान केंद्रित किया है, खराब वीडियो डेटा को फ़िल्टर करने के लिए स्वचालित चयन ढाँचा विकसित किया है, और सटीक सामग्री विवरण उत्पन्न करने के लिए एंड-टू-एंड वीडियो समझ मॉडल CogVLM2-caption लॉन्च किया है। यह मॉडल जटिल आदेशों को प्रभावी ढंग से संभालने में सक्षम है, यह सुनिश्चित करता है कि उत्पन्न वीडियो उपयोगकर्ता की आवश्यकताओं के अनुरूप हो।
सामग्री की निरंतरता को बढ़ाने के लिए, CogVideoX ने कुशल 3D वैरिएशनल ऑटोएन्कोडर (3D VAE) तकनीक का उपयोग किया है, जिससे प्रशिक्षण की लागत और कठिनाई को महत्वपूर्ण रूप से कम किया गया है। इसके अतिरिक्त, टीम ने पाठ, समय और स्थान के तीन आयामों को मिलाकर ट्रांसफार्मर आर्किटेक्चर विकसित किया है, पारंपरिक क्रॉस-अटेंशन मॉड्यूल को हटा कर पाठ और वीडियो के बीच इंटरएक्टिव प्रभाव को बढ़ाया है, जिससे वीडियो जनरेशन की गुणवत्ता में सुधार हुआ है।
भविष्य में, ज़ीपु टेक्नोलॉजी टीम डेटा मात्रा और मॉडल के आकार को बढ़ाने, अधिक कुशल मॉडल आर्किटेक्चर का पता लगाने के लिए जारी रखेगी, ताकि उच्च गुणवत्ता वाले वीडियो जनरेशन अनुभव को प्राप्त किया जा सके। CogVideoX v1.5 का ओपन-सोर्स न केवल डेवलपर्स को शक्तिशाली उपकरण प्रदान करता है, बल्कि वीडियो निर्माण क्षेत्र में नई ऊर्जा भी लाता है।
कोड: https://github.com/thudm/cogvideo
मॉडल: https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT
मुख्य बिंदु:
🌟 नया संस्करण CogVideoX v1.5 ओपन-सोर्स, 5/10 सेकंड वीडियो, 768P रिज़ॉल्यूशन और 16 फ्रेम जनरेशन क्षमता का समर्थन करता है।
🎨 नया क्यूंगयिंग प्लेटफॉर्म लॉन्च, CogSound ऑडियो मॉडल के साथ मिलकर, अत्यधिक उच्च 4K वीडियो जनरेशन प्रदान करता है।
📈 डेटा प्रोसेसिंग और एल्गोरिदम नवाचार, सुनिश्चित करते हैं कि उत्पन्न वीडियो की गुणवत्ता और निरंतरता।