बीजिंग ज़ीपु हुआज़ांग प्रौद्योगिकी कंपनी ने घोषणा की है कि इसके तहत CogVideoX श्रृंखला मॉडल का नवीनतम संस्करण - CogVideoX v1.5 लॉन्च किया गया है और इसे ओपन-सोर्स किया गया है। अगस्त की शुरुआत से जारी होने के बाद, इस श्रृंखला के मॉडल ने अपनी उद्योग में अग्रणी तकनीक और डेवलपर्स के बीच लोकप्रिय विशेषताओं के कारण वीडियो निर्माण क्षेत्र में एक प्रमुख स्थान प्राप्त किया है। नए संस्करण CogVideoX v1.5 में मौजूदा आधार पर महत्वपूर्ण अपग्रेड किया गया है, जिसमें वीडियो निर्माण क्षमताओं को बढ़ाया गया है, अब यह 5/10 सेकंड, 768P, 16 फ्रेम के वीडियो निर्माण का समर्थन करता है, और I2V मॉडल किसी भी आकार के अनुपात का समर्थन कर सकता है, जिससे चित्र से वीडियो की गुणवत्ता और जटिल अर्थ की समझ में काफी सुधार हुआ है।

微信截图_20241108145545.png

इस ओपन-सोर्स सामग्री में दो मॉडल शामिल हैं: CogVideoX v1.5-5B और CogVideoX v1.5-5B-I2V। नया संस्करण क्लीनिंग प्लेटफॉर्म पर भी लॉन्च किया जाएगा और नए लॉन्च किए गए CogSound ऑडियो मॉडल के साथ मिलकर गुणवत्ता में सुधार, उच्च परिभाषा समर्थन, विभिन्न प्लेइंग सीन के लिए परिवर्तनीय अनुपात, मल्टी-चैनल आउटपुट और ध्वनि प्रभाव के साथ एआई वीडियो जैसी विशेष सेवाएं प्रदान करेगा।

तकनीकी स्तर पर, CogVideoX v1.5 ने स्वचालित छानने के ढांचे के माध्यम से गतिशील संबंध की कमी वाले वीडियो डेटा को फ़िल्टर किया है, और अंत-से-अंत वीडियो समझ मॉडल CogVLM2-caption का उपयोग करके सटीक वीडियो सामग्री विवरण उत्पन्न किया है, जिससे पाठ की समझ और निर्देशों का पालन करने की क्षमता में वृद्धि हुई है। इसके अतिरिक्त, नए संस्करण ने सामग्री की निरंतरता की समस्या को हल करने के लिए कुशल त्रि-आयामी परिवर्तनशील ऑटोएन्कोडर (3D VAE) का उपयोग किया है, और पाठ, समय और स्थान के तीन आयामों को मिलाकर एक ट्रांसफार्मर आर्किटेक्चर विकसित किया है, पारंपरिक क्रॉस-अटेंशन मॉड्यूल को समाप्त किया है, और विशेषज्ञ अनुकूलन स्तर सामान्यीकरण तकनीक के माध्यम से प्रसार मॉडल में समय चरण की जानकारी के उपयोग को अनुकूलित किया है।

प्रशिक्षण के संदर्भ में, CogVideoX v1.5 ने एक कुशल प्रसार मॉडल प्रशिक्षण ढांचा तैयार किया है, विभिन्न समानांतर गणना और समय अनुकूलन तकनीकों के माध्यम से लंबे वीडियो अनुक्रमों के त्वरित प्रशिक्षण को संभव बनाया है। कंपनी ने कहा है कि उन्होंने वीडियो निर्माण क्षेत्र में स्केलिंग कानून की प्रभावशीलता को सत्यापित किया है, और भविष्य में डेटा मात्रा और मॉडल के आकार को बढ़ाने की योजना बनाई है, नवीन मॉडल आर्किटेक्चर का अन्वेषण करने के लिए, वीडियो जानकारी को अधिक कुशलता से संकुचित करने और पाठ और वीडियो सामग्री को बेहतर ढंग से एकीकृत करने के लिए।

कोड: https://github.com/thudm/cogvideo

मॉडल: https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT