ज़्हीपु AI ने अपने वीडियो जनरेशन मॉडल CogVideoX को ओपन-सोर्स करने की घोषणा की है, जिसका उद्देश्य वीडियो जनरेशन तकनीक के तेजी से विकास और अनुप्रयोग को बढ़ावा देना है। CogVideoX मॉडल उन्नत बड़े मॉडल तकनीक पर आधारित है, जो व्यावसायिक स्तर के अनुप्रयोगों की आवश्यकताओं को पूरा कर सकता है। वर्तमान में ओपन-सोर्स किया गया CogVideoX-2B संस्करण FP-16 सटीकता पर केवल 18GB VRAM में अनुमान लगाने की आवश्यकता है, जबकि फाइन-ट्यूनिंग के लिए 40GB VRAM की आवश्यकता होती है, जिससे एकल 4090 ग्राफिक्स कार्ड पर अनुमान लगाया जा सकता है, जबकि एकल A6000 ग्राफिक्स कार्ड पर फाइन-ट्यूनिंग पूरी की जा सकती है।
CogVideoX मॉडल 3D वेरिएशनल ऑटोएन्कोडर (3D VAE) तकनीक का उपयोग करता है, जो तीन-आयामी कन्वोल्यूशन के माध्यम से वीडियो के स्थान और समय आयामों को संकुचित करता है, जिससे उच्चतर संकुचन दर और बेहतर पुनर्निर्माण गुणवत्ता प्राप्त होती है। मॉडल संरचना में एन्कोडर, डिकोडर और संभावित स्थान नियमितीकरणकर्ता शामिल हैं, जो समय संबंधी कन्वोल्यूशन के माध्यम से जानकारी की कारणता सुनिश्चित करते हैं। इसके अलावा, एन्कोड की गई वीडियो डेटा को प्रोसेस करने के लिए विशेषज्ञ Transformer तकनीक का उपयोग किया जाता है, जो पाठ इनपुट के साथ मिलकर उच्च गुणवत्ता वाले वीडियो सामग्री उत्पन्न करता है।
CogVideoX मॉडल को प्रशिक्षित करने के लिए, ज़्हीपु AI ने उच्च गुणवत्ता वाले वीडियो डेटा को छानने के लिए एक विधि विकसित की है, जिसमें अत्यधिक संपादित, असंगत गति जैसे समस्याग्रस्त वीडियो को बाहर किया गया है, जिससे मॉडल प्रशिक्षण के डेटा की गुणवत्ता सुनिश्चित होती है। साथ ही, छवि उपशीर्षक से वीडियो उपशीर्षक उत्पन्न करने की पाइपलाइन के माध्यम से, वीडियो डेटा में पाठ वर्णन की कमी की समस्या को हल किया गया है।
प्रदर्शन मूल्यांकन के संदर्भ में, CogVideoX कई मापदंडों पर उत्कृष्ट प्रदर्शन करता है, जिसमें मानव क्रियाएँ, दृश्य, गतिशीलता स्तर आदि शामिल हैं, और वीडियो गतिशील विशेषताओं के मूल्यांकन उपकरण पर ध्यान केंद्रित करता है। ज़्हीपु AI वीडियो जनरेशन क्षेत्र में नवाचारों की खोज जारी रखेगा, जिसमें नए मॉडल आर्किटेक्चर, वीडियो सूचना संकुचन और पाठ वीडियो सामग्री का विलय आदि शामिल हैं।
कोड रिपोजिटरी:
https://github.com/THUDM/CogVideo
मॉडल डाउनलोड:
https://huggingface.co/THUDM/CogVideoX-2b
तकनीकी रिपोर्ट:
https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf