झीपु एआई ने नई पीढ़ी के वीडियो जनरेशन मॉडल CogVideoX की घोषणा की, जिसे 'क्लियर इमेज' के माध्यम से मुफ्त में अनुभव किया जा सकता है

AIbase基地

द्वारा प्रकाशितAI समाचार · 4 मिनट पढ़ें · Jul 26, 2024

366

智谱AI ने नई पीढ़ी के वीडियो जनरेशन मॉडल CogVideoX का परिचय दिया है, जो कंपनी की मल्टी-मोडल तकनीक के विकास में एक और महत्वपूर्ण प्रगति का प्रतीक है।

微信截图_20240726111755.png

CogVideoX की मुख्य तकनीकी विशेषताएँ शामिल हैं:

तीन-आयामी परिवर्तनशील आत्म-कोडिंग संरचना (3D VAE): यह संरचना, जो智谱AI द्वारा स्वनिर्मित है, मूल वीडियो डेटा को इसके मूल आकार के 2% तक संकुचित कर सकती है, जिससे प्रशिक्षण की लागत और कठिनाई कम होती है। 3D RoPE स्थिति कोडिंग मॉड्यूल के संयोजन से, यह समय आयाम में फ्रेम के बीच संबंधों को पकड़ने की क्षमता को बढ़ाता है, वीडियो में दीर्घकालिक निर्भरता स्थापित करता है।
सम्पूर्ण वीडियो समझने वाला मॉडल: इसने मॉडल की पाठ की समझ और निर्देशों का पालन करने की क्षमता को बढ़ाया है, यह सुनिश्चित करते हुए कि उत्पन्न वीडियो उपयोगकर्ता की आवश्यकताओं के अनुसार अधिक उपयुक्त हो, और यह अत्यधिक लंबे और जटिल प्रॉम्प्ट निर्देशों को संभाल सकता है।
पाठ, समय, और स्थान के तीन-आयामी एकीकृत ट्रांसफार्मर आर्किटेक्चर: विशेषज्ञ ब्लॉक को नवोन्मेषी रूप से डिज़ाइन किया गया है ताकि पाठ और वीडियो मोड के स्थानों का संरेखण किया जा सके, और फुल अटेंशन तंत्र के माध्यम से मोड के बीच इंटरएक्शन प्रभाव को अनुकूलित किया जा सके।

CogVideoX मॉडल अब智谱清言 के पीसी, मोबाइल ऐप और छोटे प्रोग्राम संस्करणों पर उपलब्ध है, उपयोगकर्ता "清影" (Ying) फ़ंक्शन के माध्यम से एआई पाठ जनरेटेड वीडियो और छवि जनरेटेड वीडियो की सेवाओं का मुफ्त अनुभव कर सकते हैं। 清影 की मुख्य विशेषताएँ हैं तेज़ जनरेशन, प्रभावी निर्देश पालन क्षमता, सामग्री की निरंतरता और दृश्य योजना की लचीलापन।

इसके अलावा,智谱 का बड़ा मॉडल ओपन प्लेटफ़ॉर्म bigmodel.cn पर भी "清影" तैनात किया गया है, कंपनियाँ और डेवलपर्स API कॉल के माध्यम से इसकी सुविधाओं का उपयोग कर सकते हैं।智谱AI ने वीडियो जनरेशन क्षेत्र में स्केलिंग लॉ की प्रभावशीलता को मान्यता दी है, और डेटा और मॉडल के आकार का विस्तार जारी रखेगा, नए मॉडल आर्किटेक्चर का अध्ययन करेगा ताकि वीडियो जानकारी को अधिक कुशलता से संकुचित किया जा सके और पाठ और वीडियो सामग्री को अधिक व्यापक रूप से एकीकृत किया जा सके।

अनुभव करने का पता:https://top.aibase.com/tool/qingying-ai-shipinshengchengfuwu

हुआवेई शेंगेन और स्टेप स्टार ने मिलकर ओपन सोर्स मल्टी-मॉडल मॉडल लॉन्च किया, एआई के नए क्षेत्र में प्रवेश किया

हाल ही में, मॉडलर्स समुदाय (Modelers) ने आधिकारिक तौर पर स्टेप स्टार द्वारा विकसित Step-Video और Step-Audio दो ओपन सोर्स मल्टी-मॉडल मॉडल लॉन्च किए हैं। ये दो मॉडल क्रमशः वीडियो जेनरेशन और वॉयस इंटरैक्शन के लिए हैं, जिनका उद्देश्य डेवलपर्स और व्यावसायिक उपयोगकर्ताओं को अधिक शक्तिशाली AI उपकरण प्रदान करना है। Step-Video मॉडल का पूरा नाम Step-Video-T2V है, जो 300 बिलियन पैरामीटर्स वाला दुनिया का सबसे बड़ा ओपन सोर्स वीडियो जेनरेशन मॉडल है। यह मॉडल सीधे 20

गूगल AI वीडियो जनरेशन मॉडल Veo 2 की लागत का खुलासा: एक मिनट का वीडियो 30 डॉलर

गूगल ने हाल ही में अपने वीडियो जनरेशन AI मॉडल Veo2 की कीमतों की जानकारी चुपचाप जारी की है, Veo2 को सबसे पहले पिछले साल दिसंबर में पेश किया गया था, और इस नए मॉडल ने काफी ध्यान आकर्षित किया है। गूगल के मूल्य निर्धारण पृष्ठ के अनुसार, Veo2 का उपयोग करने की लागत प्रति सेकंड 50 सेंट है, इस हिसाब से, एक मिनट के वीडियो की लागत 30 डॉलर है, जबकि एक घंटे के वीडियो की लागत 1800 डॉलर तक पहुँच जाती है। गूगल DeepMind के शोधकर्ता जॉन बैरोन (Jon Barron) ने इस मूल्य निर्धारण की एक दिलचस्प तुलना की, उन्होंने उल्लेख किया...

智谱清影 और AI角色创作平台“捏Ta” के बीच बहु-मोडल सहयोग, IP की एकरूपता को लागू करने के लिए आगे बढ़ना

19 फरवरी, बीजिंग झीपु ह्वाज़ांग टेक्नोलॉजी लिमिटेड ने घोषणा की कि उसके बहु-मोडल निर्माण प्लेटफॉर्म “清影” और AI角色创作平台“捏Ta” ने रणनीतिक सहयोग पर हस्ताक्षर किए हैं, जो AI角色设计 से लेकर एनिमेशन निर्माण तक की संपूर्ण पथ का पता लगाने के लिए काम करेंगे और IP की एकरूपता की तकनीकी लागू करने के लिए प्रयास करेंगे। यह सहयोग द्वितीयक आयाम उपयोगकर्ताओं की आवश्यकताओं और AI अनुप्रयोग परिदृश्यों की गहराई से खोज करने के उद्देश्य से है, ताकि उपयोगकर्ताओं को उच्च गुणवत्ता वाली जनरेटिंग प्रभाव और तेज़ निष्पादन गति प्रदान की जा सके।

सर्वश्रेष्ठ परिणाम! चरण तारे ओपन-सोर्स Step-Video-T2V वीडियो जनरेशन मॉडल

आज, चरण तारे और जिल्ली ऑटोमोबाइल ग्रुप ने संयुक्त रूप से दो चरण Step श्रृंखला के बहु-मोडल बड़े मॉडल - Step-Video-T2V वीडियो जनरेशन मॉडल और Step-Audio वॉयस मॉडल को ओपन-सोर्स करने की घोषणा की। जिनमें, चरण Step-Video-T2V वीडियो जनरेशन मॉडल स्पष्ट रूप से वैश्विक स्तर पर पैरामीटर संख्या और प्रदर्शन दोनों में अग्रणी है। इस मॉडल में 30 बिलियन पैरामीटर हैं, जो सीधे 204 फ्रेम, 540P रिज़ॉल्यूशन का उच्च गुणवत्ता वाला वीडियो उत्पन्न कर सकते हैं, यह सुनिश्चित करता है कि उत्पन्न सामग्री में सूचना की घनत्व उच्च और संगति मजबूत हो। मूल्यांकन परिणाम बताते हैं,

AI समाचार

AIbase基地

संबंधित AI समाचार अनुशंसाएँ

हुआवेई शेंगेन और स्टेप स्टार ने मिलकर ओपन सोर्स मल्टी-मॉडल मॉडल लॉन्च किया, एआई के नए क्षेत्र में प्रवेश किया

गूगल AI वीडियो जनरेशन मॉडल Veo 2 की लागत का खुलासा: एक मिनट का वीडियो 30 डॉलर

智谱清影 और AI角色创作平台“捏Ta” के बीच बहु-मोडल सहयोग, IP की एकरूपता को लागू करने के लिए आगे बढ़ना

सर्वश्रेष्ठ परिणाम! चरण तारे ओपन-सोर्स Step-Video-T2V वीडियो जनरेशन मॉडल