智谱AI ने नई पीढ़ी के वीडियो जनरेशन मॉडल CogVideoX का परिचय दिया है, जो कंपनी की मल्टी-मोडल तकनीक के विकास में एक और महत्वपूर्ण प्रगति का प्रतीक है।
CogVideoX की मुख्य तकनीकी विशेषताएँ शामिल हैं:
तीन-आयामी परिवर्तनशील आत्म-कोडिंग संरचना (3D VAE): यह संरचना, जो智谱AI द्वारा स्वनिर्मित है, मूल वीडियो डेटा को इसके मूल आकार के 2% तक संकुचित कर सकती है, जिससे प्रशिक्षण की लागत और कठिनाई कम होती है। 3D RoPE स्थिति कोडिंग मॉड्यूल के संयोजन से, यह समय आयाम में फ्रेम के बीच संबंधों को पकड़ने की क्षमता को बढ़ाता है, वीडियो में दीर्घकालिक निर्भरता स्थापित करता है।
सम्पूर्ण वीडियो समझने वाला मॉडल: इसने मॉडल की पाठ की समझ और निर्देशों का पालन करने की क्षमता को बढ़ाया है, यह सुनिश्चित करते हुए कि उत्पन्न वीडियो उपयोगकर्ता की आवश्यकताओं के अनुसार अधिक उपयुक्त हो, और यह अत्यधिक लंबे और जटिल प्रॉम्प्ट निर्देशों को संभाल सकता है।
पाठ, समय, और स्थान के तीन-आयामी एकीकृत ट्रांसफार्मर आर्किटेक्चर: विशेषज्ञ ब्लॉक को नवोन्मेषी रूप से डिज़ाइन किया गया है ताकि पाठ और वीडियो मोड के स्थानों का संरेखण किया जा सके, और फुल अटेंशन तंत्र के माध्यम से मोड के बीच इंटरएक्शन प्रभाव को अनुकूलित किया जा सके।
CogVideoX मॉडल अब智谱清言 के पीसी, मोबाइल ऐप और छोटे प्रोग्राम संस्करणों पर उपलब्ध है, उपयोगकर्ता "清影" (Ying) फ़ंक्शन के माध्यम से एआई पाठ जनरेटेड वीडियो और छवि जनरेटेड वीडियो की सेवाओं का मुफ्त अनुभव कर सकते हैं। 清影 की मुख्य विशेषताएँ हैं तेज़ जनरेशन, प्रभावी निर्देश पालन क्षमता, सामग्री की निरंतरता और दृश्य योजना की लचीलापन।
इसके अलावा,智谱 का बड़ा मॉडल ओपन प्लेटफ़ॉर्म bigmodel.cn पर भी "清影" तैनात किया गया है, कंपनियाँ और डेवलपर्स API कॉल के माध्यम से इसकी सुविधाओं का उपयोग कर सकते हैं।智谱AI ने वीडियो जनरेशन क्षेत्र में स्केलिंग लॉ की प्रभावशीलता को मान्यता दी है, और डेटा और मॉडल के आकार का विस्तार जारी रखेगा, नए मॉडल आर्किटेक्चर का अध्ययन करेगा ताकि वीडियो जानकारी को अधिक कुशलता से संकुचित किया जा सके और पाठ और वीडियो सामग्री को अधिक व्यापक रूप से एकीकृत किया जा सके।
अनुभव करने का पता:https://top.aibase.com/tool/qingying-ai-shipinshengchengfuwu