बीजिंग ज़िपु ह्वाजांग टेक्नोलॉजी कंपनी ने 2024 के 29 अगस्त को कई महत्वपूर्ण तकनीकी अपडेट की घोषणा की, जिसमें नई पीढ़ी के आधार मॉडल का प्रकाशन और नई एप्लिकेशन सेवाएँ शामिल हैं।
KDD2024 सम्मेलन में, ज़िपु ने नई पीढ़ी के आधार मॉडल का अनावरण किया, जिसमें भाषा मॉडल GLM-4-Plus, टेक्स्ट-टू-इमेज मॉडल CogView-3-Plus, इमेज/वीडियो समझने वाला मॉडल GLM-4V-Plus और वीडियो जनरेशन मॉडल CogVideoX शामिल हैं। ये मॉडल अपने-अपने क्षेत्रों में अंतरराष्ट्रीय स्तर पर अग्रणी हैं।
GLM-4-Plus मॉडल भाषा समझ, निर्देश पालन और लंबे टेक्स्ट प्रोसेसिंग में व्यापक प्रदर्शन सुधार करता है, और GPT-4o जैसे पहले श्रेणी के मॉडलों के बराबर है। CogView-3-Plus मॉडल ने पारंपरिक UNet आर्किटेक्चर के बजाय Transformer आर्किटेक्चर अपनाया है, जिससे मॉडल के प्रदर्शन में सुधार हुआ है, और यह MJ-V6 और FLUX जैसे पहले श्रेणी के मॉडलों के करीब है। GLM-4V-Plus मॉडल उच्च गुणवत्ता की इमेज समझ और वीडियो समझने की क्षमता रखता है, और यह देश का पहला सामान्य वीडियो समझने वाला मॉडल API बन गया है। CogVideoX मॉडल ने 2B संस्करण जारी करने के बाद, 5B संस्करण को और ओपन-सोर्स किया, जिससे इसका प्रदर्शन बढ़ा है, और यह वर्तमान ओपन-सोर्स वीडियो जनरेशन मॉडलों में सबसे अच्छा बन गया है।
इसके अलावा, ज़िपु ने "किंगयान ऐप" पर देश की पहली C-एंड यूजर्स के लिए वीडियो कॉल सेवा शुरू की, जो टेक्स्ट, ऑडियो और वीडियो मोडालिटीज़ को पार करती है और रियल-टाइम इनफेरेंस क्षमता के साथ उपयोगकर्ताओं को एक सहज इंटरैक्शन अनुभव प्रदान करती है।
ज़िपु ने GLM-4-Flash API की मुफ्त उपयोग की भी घोषणा की, जो गति और प्रदर्शन में लाभकारी है, और उपयोगकर्ताओं को तेजी से और मुफ्त में विशेष मॉडल और एप्लिकेशन बनाने की अनुमति देती है। साथ ही, विभिन्न उपयोगकर्ताओं की आवश्यकताओं को पूरा करने के लिए, ज़िपु ने मॉडल फाइन-ट्यूनिंग सुविधा प्रदान की है।
ज़िपु ने कहा कि वह आगे बढ़ता रहेगा, मशीनों को मानव की तरह सोचने के लिए प्रेरित करेगा, और उपयोगकर्ताओं को अधिक उन्नत तकनीक और सेवाएँ प्रदान करेगा।
मुख्य अपडेट:
भाषा आधार मॉडल GLM-4-Plus: भाषा समझ, निर्देश पालन, लंबे टेक्स्ट प्रोसेसिंग आदि में प्रदर्शन में व्यापक सुधार, अंतरराष्ट्रीय स्तर पर अग्रणी है।
टेक्स्ट-टू-इमेज आधार मॉडल CogView-3-Plus: वर्तमान सर्वश्रेष्ठ MJ-V6 और FLUX जैसे मॉडलों के करीब प्रदर्शन।
इमेज/वीडियो समझने वाला आधार मॉडल GLM-4V-Plus: उत्कृष्ट इमेज समझने की क्षमता और समय-संवेदी वीडियो समझने की क्षमता रखता है। यह मॉडल ओपन प्लेटफॉर्म (bigmodel.cn) पर लॉन्च होगा, और देश का पहला सामान्य वीडियो समझने वाला मॉडल API बनेगा।
वीडियो जनरेशन आधार मॉडल CogVideoX: 2B संस्करण जारी करने और ओपन-सोर्स करने के बाद, 5B संस्करण भी आधिकारिक रूप से ओपन-सोर्स किया गया है, और इसका प्रदर्शन और बढ़ गया है, जो वर्तमान ओपन-सोर्स वीडियो जनरेशन मॉडलों में सबसे अच्छा विकल्प है।
"किंगयान ऐप" पर वीडियो कॉल: C-एंड यूजर्स के लिए देश की पहली वीडियो कॉल सेवा, "किंगयान ऐप" की वीडियो कॉल सुविधा टेक्स्ट, ऑडियो और वीडियो मोडालिटीज़ को पार करती है, और रियल-टाइम इनफेरेंस क्षमता रखती है।
GLM-4-Flash API: इनफेरेंस सेवा पूरी तरह से मुफ्त है, और फाइन-ट्यूनिंग सेवा भी प्रदान की जाती है।
वीडियो कॉल सेवा आवेदन लिंक:
https://zhipu-ai.feishu.cn/share/base/form/shrcnqpIx9q5ILEFeT2cPNhyuSf