智谱AI ने नई पीढ़ी के वीडियो जनरेशन मॉडल CogVideoX का परिचय दिया है, जो कंपनी की मल्टी-मोडल तकनीक के विकास में एक और महत्वपूर्ण प्रगति का प्रतीक है।

微信截图_20240726111755.png

CogVideoX की मुख्य तकनीकी विशेषताएँ शामिल हैं:

  1. तीन-आयामी परिवर्तनशील आत्म-कोडिंग संरचना (3D VAE): यह संरचना, जो智谱AI द्वारा स्वनिर्मित है, मूल वीडियो डेटा को इसके मूल आकार के 2% तक संकुचित कर सकती है, जिससे प्रशिक्षण की लागत और कठिनाई कम होती है। 3D RoPE स्थिति कोडिंग मॉड्यूल के संयोजन से, यह समय आयाम में फ्रेम के बीच संबंधों को पकड़ने की क्षमता को बढ़ाता है, वीडियो में दीर्घकालिक निर्भरता स्थापित करता है।

  2. सम्पूर्ण वीडियो समझने वाला मॉडल: इसने मॉडल की पाठ की समझ और निर्देशों का पालन करने की क्षमता को बढ़ाया है, यह सुनिश्चित करते हुए कि उत्पन्न वीडियो उपयोगकर्ता की आवश्यकताओं के अनुसार अधिक उपयुक्त हो, और यह अत्यधिक लंबे और जटिल प्रॉम्प्ट निर्देशों को संभाल सकता है।

  3. पाठ, समय, और स्थान के तीन-आयामी एकीकृत ट्रांसफार्मर आर्किटेक्चर: विशेषज्ञ ब्लॉक को नवोन्मेषी रूप से डिज़ाइन किया गया है ताकि पाठ और वीडियो मोड के स्थानों का संरेखण किया जा सके, और फुल अटेंशन तंत्र के माध्यम से मोड के बीच इंटरएक्शन प्रभाव को अनुकूलित किया जा सके।

CogVideoX मॉडल अब智谱清言 के पीसी, मोबाइल ऐप और छोटे प्रोग्राम संस्करणों पर उपलब्ध है, उपयोगकर्ता "清影" (Ying) फ़ंक्शन के माध्यम से एआई पाठ जनरेटेड वीडियो और छवि जनरेटेड वीडियो की सेवाओं का मुफ्त अनुभव कर सकते हैं। 清影 की मुख्य विशेषताएँ हैं तेज़ जनरेशन, प्रभावी निर्देश पालन क्षमता, सामग्री की निरंतरता और दृश्य योजना की लचीलापन।

इसके अलावा,智谱 का बड़ा मॉडल ओपन प्लेटफ़ॉर्म bigmodel.cn पर भी "清影" तैनात किया गया है, कंपनियाँ और डेवलपर्स API कॉल के माध्यम से इसकी सुविधाओं का उपयोग कर सकते हैं।智谱AI ने वीडियो जनरेशन क्षेत्र में स्केलिंग लॉ की प्रभावशीलता को मान्यता दी है, और डेटा और मॉडल के आकार का विस्तार जारी रखेगा, नए मॉडल आर्किटेक्चर का अध्ययन करेगा ताकि वीडियो जानकारी को अधिक कुशलता से संकुचित किया जा सके और पाठ और वीडियो सामग्री को अधिक व्यापक रूप से एकीकृत किया जा सके।

अनुभव करने का पता:https://top.aibase.com/tool/qingying-ai-shipinshengchengfuwu