हाल ही में, एक सरल प्राथमिक विद्यालय गणित प्रश्न ने कई AI बड़े मॉडलों को "गड़बड़" कर दिया, 12 प्रसिद्ध घरेलू और विदेशी AI बड़े मॉडलों में से, 8 मॉडलों ने "9.11 और 9.9 में से कौन बड़ा है" इस प्रश्न का गलत उत्तर दिया।
परीक्षण में, अधिकांश बड़े मॉडल ने दशमलव के बाद के अंकों की तुलना करते समय गलत तरीके से माना कि 9.11, 9.9 से बड़ा है। यहां तक कि जब गणितीय संदर्भ स्पष्ट रूप से निर्धारित किया गया था, कुछ बड़े मॉडलों ने फिर भी गलत उत्तर दिया। यह बड़े मॉडलों की गणितीय क्षमताओं में कमी को उजागर करता है।
इस परीक्षण के 12 बड़े मॉडलों में, अली टोंग यी कियान वेन, बाइडू वेंक्सिन यी यान, मिनीमैक्स और टेनसेंट युआनबाओ सहित 4 मॉडलों ने सही उत्तर दिया, जबकि ChatGPT-4o, बाइटडांस डौबाओ, युए झी आंधर किमी, झीपु किंगयान, लिंग यि वानवु वानझी, जियाई ये तारे तारे प्रश्न, बाईचुआन जियानज़ेन बाई शियाओ यिंग, और शांगतोंग शांगलियांग जैसे 8 मॉडलों ने गलत उत्तर दिया।
कुछ उद्योग विशेषज्ञों का मानना है कि बड़े मॉडलों का गणितीय समस्याओं पर प्रदर्शन खराब है, शायद इसलिए कि वे डिजाइन के मामले में अधिक मानविकी के छात्रों की तरह हैं, न कि विज्ञान के छात्रों की तरह। जनरेटिव भाषा मॉडल आमतौर पर अगले शब्द की भविष्यवाणी के माध्यम से प्रशिक्षित होते हैं, जिससे वे भाषाई डेटा को संभालने में उत्कृष्टता दिखाते हैं, लेकिन गणितीय तर्क में उन्हें कठिनाई होती है।
इस मुद्दे पर, युए झी आंधर किमी ने कहा: वास्तव में, हम मनुष्यों का बड़े मॉडलों की क्षमताओं की खोज — चाहे वह बड़े मॉडल क्या कर सकते हैं या क्या नहीं कर सकते हैं — अभी भी बहुत प्रारंभिक चरण में है।
“हम बहुत उम्मीद करते हैं कि उपयोगकर्ता उपयोग के दौरान अधिक सीमांत मामलों (कॉर्नर केस) की खोज और रिपोर्ट कर सकें, चाहे वह हाल का '9.9 और 9.11 में कौन बड़ा है', '13.8 और 13.11 में कौन बड़ा है', या पहले का 'स्ट्रॉबेरी' में कितने 'r' हैं। इन सीमांत मामलों की खोज हमें बड़े मॉडल की क्षमताओं की सीमाओं को समझने में मदद करती है। लेकिन समस्या को पूरी तरह से हल करने के लिए, हमें हर मामले को एक-एक करके ठीक करने पर निर्भर नहीं रहना चाहिए, क्योंकि ये स्थितियाँ स्वचालित ड्राइविंग में आने वाले दृश्यों की तरह हैं, जिन्हें पूरी तरह से खत्म करना बहुत कठिन है। हमें जो अधिक करना है, वह है मूलभूत आधार मॉडल की बुद्धिमत्ता को लगातार बढ़ाना, ताकि बड़े मॉडल अधिक मजबूत और व्यापक बन सकें और विभिन्न जटिल और चरम स्थितियों में भी उत्कृष्ट प्रदर्शन कर सकें।”
कुछ विशेषज्ञों का मानना है कि बड़े मॉडलों की गणितीय क्षमताओं को बढ़ाने के लिए, कुंजी प्रशिक्षण सामग्री में है। बड़े भाषा मॉडल मुख्य रूप से इंटरनेट पर पाठ डेटा के माध्यम से प्रशिक्षित होते हैं, और इन डेटा में गणितीय प्रश्नों और समाधानों की संख्या अपेक्षाकृत कम होती है। इसलिए, भविष्य में बड़े मॉडलों के प्रशिक्षण की आवश्यकता है कि वे अधिक प्रणालीबद्ध रूप से बनाए जाएं, विशेष रूप से जटिल तर्क के मामले में।