मोद डा मॉडलस्कोप समुदाय ने हाल ही में अपने घरेलू ओपन-सोर्स सोरा वीडियो जनरेशन मॉडल CogVideoX का बड़ा संस्करण - CogVideoX-5B को आधिकारिक रूप से ओपन-सोर्स करने की घोषणा की है।
पिछले CogVideoX-2B की तुलना में, नए मॉडल में वीडियो जनरेशन की गुणवत्ता और दृश्य प्रभाव में महत्वपूर्ण सुधार हुआ है।
CogVideoX-5B एक बड़े पैमाने पर DiT (डिफ्यूजन ट्रांसफार्मर) मॉडल पर आधारित है, जिसे टेक्स्ट से वीडियो जनरेशन कार्यों के लिए डिज़ाइन किया गया है। मॉडल में 3D कारणात्मक वैरिएशनल ऑटोएन्कोडर (3D causal VAE) और विशेषज्ञ ट्रांसफार्मर तकनीक का उपयोग किया गया है, जो टेक्स्ट और वीडियो एम्बेडिंग को मिलाकर 3D-RoPE को स्थिति कोडिंग के रूप में उपयोग करता है और 3D पूर्ण ध्यान तंत्र का उपयोग करके समय-स्थान संयुक्त मॉडलिंग करता है।
इसके अलावा, मॉडल में प्रगतिशील प्रशिक्षण तकनीक का उपयोग किया गया है, जो स्पष्ट गति विशेषताओं के साथ, सुसंगत और लंबे समय तक उच्च गुणवत्ता वाले वीडियो उत्पन्न करने में सक्षम है।
मॉडल लिंक:
https://modelscope.cn/models/ZhipuAI/CogVideoX-5b