हाल ही में, ज़ीपु एआई कंपनी ने एक नया वीडियो जनरेशन मॉडल CogVideoX-5B ओपन-सोर्स किया है, जो न केवल वीडियो जनरेशन की गुणवत्ता और दृश्य प्रभावों में पिछले उत्पाद CogVideoX-2B से बेहतर है, बल्कि इसकी अनुमानित प्रदर्शन में भी काफी सुधार हुआ है, जिससे पुराने GTX1080Ti ग्राफिक्स कार्ड上一जनरेशन मॉडल को चलाने में सक्षम हो गया है, जबकि डेस्कटॉप पर "डेसर्ट-क्लास" ग्राफिक्स कार्ड, जैसे RTX3060, इस नए मॉडल को आसानी से चला सकते हैं।
CogVideoX-5B और CogVideoX-2B के विस्तृत पैरामीटर की तुलना:
यह विशाल DiT (डिफ्यूजन ट्रांसफार्मर) मॉडल टेक्स्ट से वीडियो जनरेशन कार्यों को निष्पादित करने के लिए डिज़ाइन किया गया है। इसके पीछे की तकनीक में 3D कारणात्मक वैरिएशनल ऑटोएन्कोडर (3D causal VAE) शामिल है, जो वीडियो डेटा को संभावित स्थान में संकुचित करता है और समय आयाम पर डिकोड करता है, ताकि कुशल वीडियो पुनर्निर्माण किया जा सके।
इसके अलावा, विशेषज्ञ ट्रांसफार्मर (Expert Transformer) का उपयोग, टेक्स्ट एम्बेडिंग और वीडियो एम्बेडिंग को मिलाकर, 3D-RoPE को स्थिति कोडिंग के रूप में अपनाता है, विशेषज्ञ अनुकूलन परत के माध्यम से दोनों मोडालिटी के डेटा को सामान्यीकृत करता है और 3D पूर्ण ध्यान तंत्र का उपयोग करके समय-स्थान संयुक्त मॉडलिंग करता है।
कोड: https://top.aibase.com/tool/cogvideox
मॉडल डाउनलोड: https://huggingface.co/THUDM/CogVideoX-5b
पेपर लिंक: https://arxiv.org/pdf/2408.06072