मोद डा मॉडलस्कोप समुदाय ने हाल ही में अपने घरेलू ओपन-सोर्स सोरा वीडियो जनरेशन मॉडल CogVideoX का बड़ा संस्करण - CogVideoX-5B को आधिकारिक रूप से ओपन-सोर्स करने की घोषणा की है।

पिछले CogVideoX-2B की तुलना में, नए मॉडल में वीडियो जनरेशन की गुणवत्ता और दृश्य प्रभाव में महत्वपूर्ण सुधार हुआ है।

微信截图_20240828081448.png

CogVideoX-5B एक बड़े पैमाने पर DiT (डिफ्यूजन ट्रांसफार्मर) मॉडल पर आधारित है, जिसे टेक्स्ट से वीडियो जनरेशन कार्यों के लिए डिज़ाइन किया गया है। मॉडल में 3D कारणात्मक वैरिएशनल ऑटोएन्कोडर (3D causal VAE) और विशेषज्ञ ट्रांसफार्मर तकनीक का उपयोग किया गया है, जो टेक्स्ट और वीडियो एम्बेडिंग को मिलाकर 3D-RoPE को स्थिति कोडिंग के रूप में उपयोग करता है और 3D पूर्ण ध्यान तंत्र का उपयोग करके समय-स्थान संयुक्त मॉडलिंग करता है।

इसके अलावा, मॉडल में प्रगतिशील प्रशिक्षण तकनीक का उपयोग किया गया है, जो स्पष्ट गति विशेषताओं के साथ, सुसंगत और लंबे समय तक उच्च गुणवत्ता वाले वीडियो उत्पन्न करने में सक्षम है।

मॉडल लिंक:

https://modelscope.cn/models/ZhipuAI/CogVideoX-5b