ज़िहु एआई का ओपन-सोर्स नया मॉडल, पुराने ग्राफ़िक्स कार्ड पर भी वीडियो निर्माण के नए युग की शुरुआत

AIbase基地

द्वारा प्रकाशितAI समाचार · 3 मिनट पढ़ें · Aug 28, 2024

244

हाल ही में, ज़ीपु एआई कंपनी ने एक नया वीडियो जनरेशन मॉडल CogVideoX-5B ओपन-सोर्स किया है, जो न केवल वीडियो जनरेशन की गुणवत्ता और दृश्य प्रभावों में पिछले उत्पाद CogVideoX-2B से बेहतर है, बल्कि इसकी अनुमानित प्रदर्शन में भी काफी सुधार हुआ है, जिससे पुराने GTX1080Ti ग्राफिक्स कार्ड上一जनरेशन मॉडल को चलाने में सक्षम हो गया है, जबकि डेस्कटॉप पर "डेसर्ट-क्लास" ग्राफिक्स कार्ड, जैसे RTX3060, इस नए मॉडल को आसानी से चला सकते हैं।

CogVideoX-5B और CogVideoX-2B के विस्तृत पैरामीटर की तुलना:

यह विशाल DiT (डिफ्यूजन ट्रांसफार्मर) मॉडल टेक्स्ट से वीडियो जनरेशन कार्यों को निष्पादित करने के लिए डिज़ाइन किया गया है। इसके पीछे की तकनीक में 3D कारणात्मक वैरिएशनल ऑटोएन्कोडर (3D causal VAE) शामिल है, जो वीडियो डेटा को संभावित स्थान में संकुचित करता है और समय आयाम पर डिकोड करता है, ताकि कुशल वीडियो पुनर्निर्माण किया जा सके।

इसके अलावा, विशेषज्ञ ट्रांसफार्मर (Expert Transformer) का उपयोग, टेक्स्ट एम्बेडिंग और वीडियो एम्बेडिंग को मिलाकर, 3D-RoPE को स्थिति कोडिंग के रूप में अपनाता है, विशेषज्ञ अनुकूलन परत के माध्यम से दोनों मोडालिटी के डेटा को सामान्यीकृत करता है और 3D पूर्ण ध्यान तंत्र का उपयोग करके समय-स्थान संयुक्त मॉडलिंग करता है।

कोड: https://top.aibase.com/tool/cogvideox

मॉडल डाउनलोड: https://huggingface.co/THUDM/CogVideoX-5b

पेपर लिंक: https://arxiv.org/pdf/2408.06072

बाइट联合 द्वारा प्रस्तुत! STAR मॉडल: वीडियो की स्पष्टता और संकल्प बढ़ाना

हाल ही में, नानजिंग विश्वविद्यालय की शोध टीम ने बाइटजंप और दक्षिण-पश्चिम विश्वविद्यालय के साथ मिलकर एक अभिनव तकनीक - STAR (Spatial-Temporal Augmentation with Text-to-Video Models) लॉन्च की है, जिसका उद्देश्य पाठ से वीडियो मॉडल का उपयोग करके वास्तविक दुनिया के वीडियो की 超分辨率 प्रक्रिया को लागू करना है। यह तकनीक समय-स्थान वृद्धि विधियों को जोड़ती है, जो निम्न रिज़ॉल्यूशन वाले वीडियो की गुणवत्ता को प्रभावी ढंग से बढ़ा सकती है, विशेष रूप से उन वीडियो के लिए जो वीडियो साझा करने वाले प्लेटफार्मों से डाउनलोड की गई निम्न स्पष्टता वाले वीडियो हैं।

उच्च गुणवत्ता, बेहतर दृश्य प्रभाव! Zhipu ओपन-सोर्स CogVideoX-5B वीडियो जनरेशन मॉडल

देशी ओपन-सोर्स वीडियो जनरेशन मॉडल CogVideoX-5B आधिकारिक रूप से MoDou ModelScope समुदाय में ओपन-सोर्स किया गया है, जिसने वीडियो जनरेशन की गुणवत्ता और दृश्य प्रभाव को महत्वपूर्ण रूप से बढ़ा दिया है। बड़े पैमाने पर DiT मॉडल पर आधारित, यह मॉडल 3D कारणात्मक वैरिएशनल ऑटोएन्कोडर, एक्सपर्ट ट्रांसफार्मर तकनीक का उपयोग करता है, और 3D-RoPE स्थान कोडिंग और 3D पूर्ण ध्यान तंत्र के माध्यम से समय-स्थान संयुक्त मॉडलिंग को लागू करता है। प्रगतिशील प्रशिक्षण तकनीक का उपयोग करते हुए, मॉडल को स्पष्ट गति विशेषताओं, लगातार और उच्च गुणवत्ता वाले लंबे समय तक वीडियो उत्पन्न करने में सक्षम बनाता है।

AI समाचार

ज़िहु एआई का ओपन-सोर्स नया मॉडल, पुराने ग्राफ़िक्स कार्ड पर भी वीडियो निर्माण के नए युग की शुरुआत

AIbase基地

संबंधित AI समाचार अनुशंसाएँ

बाइट联合 द्वारा प्रस्तुत! STAR मॉडल: वीडियो की स्पष्टता और संकल्प बढ़ाना

उच्च गुणवत्ता, बेहतर दृश्य प्रभाव! Zhipu ओपन-सोर्स CogVideoX-5B वीडियो जनरेशन मॉडल