हाल ही में, ज़ीपु एआई कंपनी ने एक नया वीडियो जनरेशन मॉडल CogVideoX-5B ओपन-सोर्स किया है, जो न केवल वीडियो जनरेशन की गुणवत्ता और दृश्य प्रभावों में पिछले उत्पाद CogVideoX-2B से बेहतर है, बल्कि इसकी अनुमानित प्रदर्शन में भी काफी सुधार हुआ है, जिससे पुराने GTX1080Ti ग्राफिक्स कार्ड上一जनरेशन मॉडल को चलाने में सक्षम हो गया है, जबकि डेस्कटॉप पर "डेसर्ट-क्लास" ग्राफिक्स कार्ड, जैसे RTX3060, इस नए मॉडल को आसानी से चला सकते हैं।

CogVideoX-5B और CogVideoX-2B के विस्तृत पैरामीटर की तुलना:

image.png

यह विशाल DiT (डिफ्यूजन ट्रांसफार्मर) मॉडल टेक्स्ट से वीडियो जनरेशन कार्यों को निष्पादित करने के लिए डिज़ाइन किया गया है। इसके पीछे की तकनीक में 3D कारणात्मक वैरिएशनल ऑटोएन्कोडर (3D causal VAE) शामिल है, जो वीडियो डेटा को संभावित स्थान में संकुचित करता है और समय आयाम पर डिकोड करता है, ताकि कुशल वीडियो पुनर्निर्माण किया जा सके।

इसके अलावा, विशेषज्ञ ट्रांसफार्मर (Expert Transformer) का उपयोग, टेक्स्ट एम्बेडिंग और वीडियो एम्बेडिंग को मिलाकर, 3D-RoPE को स्थिति कोडिंग के रूप में अपनाता है, विशेषज्ञ अनुकूलन परत के माध्यम से दोनों मोडालिटी के डेटा को सामान्यीकृत करता है और 3D पूर्ण ध्यान तंत्र का उपयोग करके समय-स्थान संयुक्त मॉडलिंग करता है।

कोड: https://top.aibase.com/tool/cogvideox

मॉडल डाउनलोड: https://huggingface.co/THUDM/CogVideoX-5b

पेपर लिंक: https://arxiv.org/pdf/2408.06072