商汤 ने अपने बड़े भाषा मॉडल एप्लिकेशन “商量 SenseChat” की आधिकारिक सेवा की घोषणा की

अलीबाबा के टोंगयी कियानवेन द्वारा विकसित QwQ-32B नामक एक बड़े भाषा मॉडल ने वैश्विक ओपन सोर्स समुदाय में रैंकिंग में पहला स्थान हासिल किया है। यह मॉडल अपनी उन्नत तर्क क्षमताओं के लिए जाना जाता है।
एलोन मस्क की xAI कंपनी ने आधिकारिक रूप से ग्रोक श्रृंखला के तीसरी पीढ़ी के बड़े भाषा मॉडल को जारी किया है, जिससे AI क्षेत्र में तकनीकी सुनामी का एक नया दौर शुरू हुआ है। इस मॉडल को डेवलपर्स द्वारा इस समय के सबसे शक्तिशाली मॉडल के रूप में जाना जाता है, जो वैश्विक AI प्रतिस्पर्धा के परिदृश्य को फिर से आकार दे सकता है। आधिकारिक जानकारी के अनुसार, ग्रोक-3 कई प्रमुख मापदंडों में मौजूदा प्रमुख मॉडलों को पार कर चुका है, परीक्षण उपयोगकर्ताओं ने इसकी वास्तविक प्रदर्शन को o3-full बेंचमार्क स्तर पर बताया। लेकिन इस तकनीकी प्रगति के पीछे एक उल्लेखनीय कंप्यूटिंग शक्ति का निवेश है - इसके प्रशिक्षण के लिए आवश्यक कंप्यूटिंग संसाधनों की खपत चीन की दीपसीक कंपनी के बराबर है।
राकुटेन समूह ने अपना पहला जापानी बड़ा भाषा मॉडल (LLM) और छोटा भाषा मॉडल (SLM) पेश करने की घोषणा की, जिसे राकुटेन एआई 2.0 और राकुटेन एआई 2.0 मिनी नाम दिया गया। इन दोनों मॉडलों का अनावरण जापान में आर्टिफिशियल इंटेलिजेंस (एआई) के विकास को बढ़ावा देने के उद्देश्य से किया गया है। राकुटेन एआई 2.0 एक मिश्रित विशेषज्ञ (MoE) संरचना पर आधारित है, जो 8x7B का एक मॉडल है, जिसमें आठ ऐसे मॉडल शामिल हैं, जिनमें से प्रत्येक में 70 अरब पैरामीटर होते हैं, और हर मॉडल एक विशेषज्ञ के रूप में कार्य करता है। हर बार जब इनपुट टोकन को प्रोसेस किया जाता है
टियान्येचा ऐप दिखाता है कि टेनसेंट टेक्नोलॉजी (शेन्ज़ेन) कंपनी ने हाल ही में "बड़े भाषा मॉडल के प्रशिक्षण विधि, यंत्र, कंप्यूटर उपकरण और स्टोरेज मीडिया" नामक एक पेटेंट दायर किया है। इस पेटेंट का सारांश बताता है कि यह विधि पहले सारांश पाठ और दूसरे सारांश पाठ को शामिल करके बड़े भाषा मॉडल के प्रशिक्षण के दौरान अधिक अध्ययन योग्य जानकारी प्रदान करती है। पेटेंट विवरण के अनुसार, पहले सारांश पाठ और दूसरे सारांश पाठ में शामिल जानकारी की मात्रा भिन्न है, जिसमें पहले सारांश पाठ में सही वाक्य और गलत वाक्य भी शामिल हैं। इसी पाठ की इन दोनों