智谱AI ने हाल ही में अपने नवीनतम आधार मॉडल GLM-4-Plus की भव्य घोषणा की है, जो OpenAI GPT-4 के समान मजबूत दृश्य क्षमताओं का प्रदर्शन करता है, और यह 30 अगस्त को उपयोग के लिए उपलब्ध होगा। यह महत्वपूर्ण प्रगति न केवल स्वदेशी AI तकनीक में एक छलांग का प्रतीक है, बल्कि उपयोगकर्ताओं को एक अनूठा स्मार्ट अनुभव भी प्रदान करती है।

मुख्य अद्यतन विशेषताएँ:

  • भाषा आधार मॉडल GLM-4-Plus: भाषा विश्लेषण, निर्देश कार्यान्वयन और लंबे पाठ प्रबंधन क्षमताओं में गुणात्मक छलांग हासिल की है, और अंतरराष्ट्रीय प्रतिस्पर्धा में अपने अग्रणी स्थान को बनाए रखा है।

  • पाठ से चित्र मॉडल CogView-3-Plus: प्रदर्शन उद्योग के शीर्ष MJ-V6 और FLUX मॉडल के समान है।

  • चित्र/वीडियो समझने वाला मॉडल GLM-4V-Plus: न केवल चित्र समझने में उत्कृष्ट प्रदर्शन करता है, बल्कि समय श्रृंखला विश्लेषण पर आधारित वीडियो समझने की क्षमता भी रखता है। यह मॉडल जल्द ही ओपन प्लेटफॉर्म bigmodel.cn पर उपलब्ध होगा, और देश का पहला सामान्य वीडियो समझने वाला मॉडल API बनेगा।

  • वीडियो निर्माण मॉडल CogVideoX: 2B संस्करण के जारी होने और ओपन-सोर्स होने के बाद, 5B संस्करण भी आधिकारिक रूप से ओपन-सोर्स किया गया है, प्रदर्शन में महत्वपूर्ण सुधार के साथ, वर्तमान में ओपन-सोर्स वीडियो निर्माण मॉडल में अग्रणी है।

  • 智谱 का ओपन-सोर्स मॉडल का कुल डाउनलोड 2000 लाख से अधिक हो चुका है, जो ओपन-सोर्स समुदाय के समृद्ध विकास में महत्वपूर्ण योगदान देता है।

image.png

GLM-4-Plus कई प्रमुख क्षेत्रों में उत्कृष्ट प्रदर्शन करता है। भाषा क्षमताओं के संदर्भ में, यह मॉडल समझने, निर्देश पालन और लंबे पाठ प्रबंधन में अंतरराष्ट्रीय स्तर पर अग्रणी है, और इसका प्रदर्शन GPT-4 और 405B पैरामीटर वाले Llama3.1 के समान है। विशेष रूप से, GLM-4-Plus ने सटीक लंबे और छोटे पाठ डेटा मिश्रण रणनीति के माध्यम से लंबे पाठ में अनुमान लगाने के प्रभाव को महत्वपूर्ण रूप से बढ़ाया है।

image.png

दृश्य बुद्धिमत्ता के क्षेत्र में, GLM-4V-Plus ने उत्कृष्ट चित्र और वीडियो समझने की क्षमता दिखाई है। यह न केवल समय की संवेदनशीलता रखता है, बल्कि जटिल वीडियो सामग्री को भी समझने और संसाधित करने की क्षमता रखता है। यह ध्यान देने योग्य है कि यह मॉडल智谱 के ओपन प्लेटफॉर्म पर उपलब्ध होगा, और देश का पहला सामान्य वीडियो समझने वाला मॉडल API बनेगा, जो डेवलपर्स और शोधकर्ताओं को शक्तिशाली उपकरण प्रदान करेगा।

image.png

उदाहरण के लिए, यदि आप इसे एक वीडियो देते हैं और पूछते हैं कि हरे कपड़े पहने खिलाड़ी ने पूरे वीडियो में क्या किया है? यह खिलाड़ी के किए गए कार्यों का सटीक वर्णन कर सकता है, और यह भी बता सकता है कि वीडियो का शानदार क्षण किस सेकंड में है:

image.png

आधिकारिक से स्क्रीनशॉट

智谱AI ने निर्माण क्षेत्र में भी महत्वपूर्ण प्रगति की है। CogView-3-Plus की चित्र से पाठ प्रदर्शन वर्तमान में सबसे अच्छे MJ-V6 और FLUX जैसे मॉडलों के करीब पहुंच गई है। साथ ही, वीडियो निर्माण मॉडल CogVideoX ने अधिक शक्तिशाली 5B संस्करण को पेश किया है, जिसे वर्तमान में ओपन-सोर्स वीडियो निर्माण मॉडलों में सबसे अच्छा विकल्प माना जाता है।

image.png

सबसे अपेक्षित बात यह है कि智谱 का Qingyan ऐप जल्द ही "वीडियो कॉल" सुविधा लॉन्च करने जा रहा है, जो देश का पहला C-एंड के लिए खुला AI वीडियो कॉलिंग फीचर है। यह सुविधा पाठ, ऑडियो और वीडियो के तीन प्रमुख मोड को पार करती है, और इसमें वास्तविक समय अनुमान लगाने की क्षमता है। उपयोगकर्ता AI के साथ सहज वार्तालाप कर सकते हैं, यहां तक कि बार-बार बाधित करने पर भी तेजी से प्रतिक्रिया कर सकते हैं।

और भी आश्चर्यजनक बात यह है कि जैसे ही कैमरा चालू होता है, AI उपयोगकर्ता द्वारा देखी जा रही दृश्य को देख सकता है और समझ सकता है, साथ ही सही ढंग से वॉयस कमांड को निष्पादित कर सकता है।

यह क्रांतिकारी वीडियो कॉलिंग सुविधा 30 अगस्त को लॉन्च होगी, पहले चरण में Qingyan के कुछ उपयोगकर्ताओं के लिए उपलब्ध होगी, साथ ही बाहरी आवेदन भी स्वीकार किए जाएंगे। यह नवाचार न केवल智谱AI की तकनीकी ताकत को प्रदर्शित करता है, बल्कि कृत्रिम बुद्धिमत्ता और दैनिक जीवन के गहरे एकीकरण के लिए नई संभावनाएं खोलता है।

संदर्भ सामग्री: https://mp.weixin.qq.com/s/Ww8njI4NiyH7arxML0nh8w