उच्च गुणवत्ता, बेहतर दृश्य प्रभाव! Zhipu ओपन-सोर्स CogVideoX-5B वीडियो जनरेशन मॉडल

AIbase基地

द्वारा प्रकाशितAI समाचार · 2 मिनट पढ़ें · Aug 28, 2024

304

मोद डा मॉडलस्कोप समुदाय ने हाल ही में अपने घरेलू ओपन-सोर्स सोरा वीडियो जनरेशन मॉडल CogVideoX का बड़ा संस्करण - CogVideoX-5B को आधिकारिक रूप से ओपन-सोर्स करने की घोषणा की है।

पिछले CogVideoX-2B की तुलना में, नए मॉडल में वीडियो जनरेशन की गुणवत्ता और दृश्य प्रभाव में महत्वपूर्ण सुधार हुआ है।

微信截图_20240828081448.png

CogVideoX-5B एक बड़े पैमाने पर DiT (डिफ्यूजन ट्रांसफार्मर) मॉडल पर आधारित है, जिसे टेक्स्ट से वीडियो जनरेशन कार्यों के लिए डिज़ाइन किया गया है। मॉडल में 3D कारणात्मक वैरिएशनल ऑटोएन्कोडर (3D causal VAE) और विशेषज्ञ ट्रांसफार्मर तकनीक का उपयोग किया गया है, जो टेक्स्ट और वीडियो एम्बेडिंग को मिलाकर 3D-RoPE को स्थिति कोडिंग के रूप में उपयोग करता है और 3D पूर्ण ध्यान तंत्र का उपयोग करके समय-स्थान संयुक्त मॉडलिंग करता है।

इसके अलावा, मॉडल में प्रगतिशील प्रशिक्षण तकनीक का उपयोग किया गया है, जो स्पष्ट गति विशेषताओं के साथ, सुसंगत और लंबे समय तक उच्च गुणवत्ता वाले वीडियो उत्पन्न करने में सक्षम है।

मॉडल लिंक:

https://modelscope.cn/models/ZhipuAI/CogVideoX-5b

智谱清影 और AI角色创作平台“捏Ta” के बीच बहु-मोडल सहयोग, IP की एकरूपता को लागू करने के लिए आगे बढ़ना

19 फरवरी, बीजिंग झीपु ह्वाज़ांग टेक्नोलॉजी लिमिटेड ने घोषणा की कि उसके बहु-मोडल निर्माण प्लेटफॉर्म “清影” और AI角色创作平台“捏Ta” ने रणनीतिक सहयोग पर हस्ताक्षर किए हैं, जो AI角色设计 से लेकर एनिमेशन निर्माण तक की संपूर्ण पथ का पता लगाने के लिए काम करेंगे और IP की एकरूपता की तकनीकी लागू करने के लिए प्रयास करेंगे। यह सहयोग द्वितीयक आयाम उपयोगकर्ताओं की आवश्यकताओं और AI अनुप्रयोग परिदृश्यों की गहराई से खोज करने के उद्देश्य से है, ताकि उपयोगकर्ताओं को उच्च गुणवत्ता वाली जनरेटिंग प्रभाव और तेज़ निष्पादन गति प्रदान की जा सके।

बाइट联合 द्वारा प्रस्तुत! STAR मॉडल: वीडियो की स्पष्टता और संकल्प बढ़ाना

हाल ही में, नानजिंग विश्वविद्यालय की शोध टीम ने बाइटजंप और दक्षिण-पश्चिम विश्वविद्यालय के साथ मिलकर एक अभिनव तकनीक - STAR (Spatial-Temporal Augmentation with Text-to-Video Models) लॉन्च की है, जिसका उद्देश्य पाठ से वीडियो मॉडल का उपयोग करके वास्तविक दुनिया के वीडियो की 超分辨率 प्रक्रिया को लागू करना है। यह तकनीक समय-स्थान वृद्धि विधियों को जोड़ती है, जो निम्न रिज़ॉल्यूशन वाले वीडियो की गुणवत्ता को प्रभावी ढंग से बढ़ा सकती है, विशेष रूप से उन वीडियो के लिए जो वीडियो साझा करने वाले प्लेटफार्मों से डाउनलोड की गई निम्न स्पष्टता वाले वीडियो हैं।

智谱AI का ओपन-सोर्स नवीनतम वीडियो मॉडल CogVideoX v1.5, 10 सेकंड 4K "न्यू क्लियर शैडो" पर लॉन्च

आज,智谱 तकनीकी टीम ने अपना नवीनतम वीडियो जनरेशन मॉडल CogVideoX v1.5 जारी किया और इसे ओपन-सोर्स किया। यह संस्करण अगस्त के बाद से,智谱 तकनीकी टीम द्वारा प्रस्तुत CogVideoX श्रृंखला में एक और महत्वपूर्ण प्रगति है। ज्ञात हुआ है कि इस अपडेट ने वीडियो जनरेशन की क्षमता में बड़े पैमाने पर सुधार किया है, जिसमें 5 सेकंड और 10 सेकंड की वीडियो लंबाई, 768P रिज़ॉल्यूशन और 16 फ्रेम की जनरेशन क्षमता शामिल है। साथ ही, I2V (इमेज से वीडियो) मॉडल किसी भी आयाम अनुपात का समर्थन करता है, जो जटिल अर्थों की समझ को और बढ़ाता है।

ज़ीपीएआई वीडियो जनरेशन मॉडल CogVideoX v1.5 ओपन-सोर्स, 5/10 सेकंड वीडियो जनरेशन का समर्थन करता है

बीजिंग ज़ीपी टेक्नोलॉजी कंपनी ने घोषणा की है कि उसके अंतर्गत आने वाले CogVideoX श्रृंखला मॉडल का नवीनतम संस्करण - CogVideoX v1.5 पेश किया गया है, जो अब ओपन-सोर्स है। अगस्त की शुरुआत से लॉन्च होने के बाद, यह श्रृंखला मॉडल उद्योग में अग्रणी तकनीक और डेवलपर्स द्वारा पसंद किए जाने वाले लक्षणों के साथ, वीडियो जनरेशन क्षेत्र में उत्कृष्ट बन गया है। नए संस्करण CogVideoX v1.5 में मौलिक आधार पर महत्वपूर्ण उन्नयन किया गया है, जिसमें वीडियो जनरेशन की क्षमता को बढ़ाया गया है, और अब यह 5/10 सेकंड, 768P, 16 फ्रेम的视频 जनरेशन का समर्थन करता है।