ज़्हीपु AI ने अपने वीडियो जनरेशन मॉडल CogVideoX को ओपन-सोर्स करने की घोषणा की है, जिसका उद्देश्य वीडियो जनरेशन तकनीक के तेजी से विकास और अनुप्रयोग को बढ़ावा देना है। CogVideoX मॉडल उन्नत बड़े मॉडल तकनीक पर आधारित है, जो व्यावसायिक स्तर के अनुप्रयोगों की आवश्यकताओं को पूरा कर सकता है। वर्तमान में ओपन-सोर्स किया गया CogVideoX-2B संस्करण FP-16 सटीकता पर केवल 18GB VRAM में अनुमान लगाने की आवश्यकता है, जबकि फाइन-ट्यूनिंग के लिए 40GB VRAM की आवश्यकता होती है, जिससे एकल 4090 ग्राफिक्स कार्ड पर अनुमान लगाया जा सकता है, जबकि एकल A6000 ग्राफिक्स कार्ड पर फाइन-ट्यूनिंग पूरी की जा सकती है।

CogVideoX मॉडल 3D वेरिएशनल ऑटोएन्कोडर (3D VAE) तकनीक का उपयोग करता है, जो तीन-आयामी कन्वोल्यूशन के माध्यम से वीडियो के स्थान और समय आयामों को संकुचित करता है, जिससे उच्चतर संकुचन दर और बेहतर पुनर्निर्माण गुणवत्ता प्राप्त होती है। मॉडल संरचना में एन्कोडर, डिकोडर और संभावित स्थान नियमितीकरणकर्ता शामिल हैं, जो समय संबंधी कन्वोल्यूशन के माध्यम से जानकारी की कारणता सुनिश्चित करते हैं। इसके अलावा, एन्कोड की गई वीडियो डेटा को प्रोसेस करने के लिए विशेषज्ञ Transformer तकनीक का उपयोग किया जाता है, जो पाठ इनपुट के साथ मिलकर उच्च गुणवत्ता वाले वीडियो सामग्री उत्पन्न करता है।

微信截图_20240806095428.png

CogVideoX मॉडल को प्रशिक्षित करने के लिए, ज़्हीपु AI ने उच्च गुणवत्ता वाले वीडियो डेटा को छानने के लिए एक विधि विकसित की है, जिसमें अत्यधिक संपादित, असंगत गति जैसे समस्याग्रस्त वीडियो को बाहर किया गया है, जिससे मॉडल प्रशिक्षण के डेटा की गुणवत्ता सुनिश्चित होती है। साथ ही, छवि उपशीर्षक से वीडियो उपशीर्षक उत्पन्न करने की पाइपलाइन के माध्यम से, वीडियो डेटा में पाठ वर्णन की कमी की समस्या को हल किया गया है।

प्रदर्शन मूल्यांकन के संदर्भ में, CogVideoX कई मापदंडों पर उत्कृष्ट प्रदर्शन करता है, जिसमें मानव क्रियाएँ, दृश्य, गतिशीलता स्तर आदि शामिल हैं, और वीडियो गतिशील विशेषताओं के मूल्यांकन उपकरण पर ध्यान केंद्रित करता है। ज़्हीपु AI वीडियो जनरेशन क्षेत्र में नवाचारों की खोज जारी रखेगा, जिसमें नए मॉडल आर्किटेक्चर, वीडियो सूचना संकुचन और पाठ वीडियो सामग्री का विलय आदि शामिल हैं।

कोड रिपोजिटरी:

https://github.com/THUDM/CogVideo

मॉडल डाउनलोड:

https://huggingface.co/THUDM/CogVideoX-2b

तकनीकी रिपोर्ट:

https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf