हाल ही में, मीरा संस्थान, गूगल DeepMind और माइक्रोसॉफ्ट अनुसंधान केंद्र के शोधकर्ताओं ने एआई भाषा मॉडल की तर्क क्षमताओं पर गहन अध्ययन किया, और पाया कि छोटे और सस्ते मॉडल जटिल समस्याओं को हल करने में महत्वपूर्ण कमी दिखाते हैं।

यह अध्ययन एक परीक्षण का है जिसे "संयोग GSM" कहा जाता है, जिसका उद्देश्य इन मॉडलों के श्रृंखलाबद्ध बुनियादी गणितीय समस्याओं को हल करने के प्रदर्शन का मूल्यांकन करना है।

एआई रोबोट आर्टिफिशियल इंटेलिजेंस (3) डेटा विश्लेषण

चित्र स्रोत नोट: चित्र AI द्वारा उत्पन्न, चित्र अधिकार सेवा प्रदाता Midjourney

शोधकर्ताओं ने GSM8K डेटा सेट से दो प्रश्नों को जोड़ा, पहले प्रश्न के उत्तर का उपयोग दूसरे प्रश्न के चर के रूप में परीक्षण करने के लिए किया। परिणाम दिखाते हैं कि अधिकांश मॉडल इन जटिल तर्क कार्यों में अपेक्षा से काफी कम प्रदर्शन करते हैं, विशेष रूप से छोटे मॉडलों में यह और अधिक स्पष्ट है। जबकि छोटे मॉडल मानक गणित परीक्षण जैसे GSM8K पर बड़े मॉडलों के समान स्कोर करते हैं, नए संयोजन परीक्षण में, उनके तर्क में अंतर 2 से 12 गुना तक बढ़ जाता है।

उदाहरण के लिए, GPT-4o mini का प्रदर्शन नए परीक्षण में GPT-4o से बहुत पीछे है, हालांकि मूल बेंचमार्क परीक्षण में लगभग समान था। अन्य मॉडल जैसे Gemini और LLAMA3 में भी इसी तरह की स्थिति दिखाई दी। शोध से पता चलता है कि ये छोटे मॉडल सामान्य कार्यों में सतही पैटर्न पहचानने में सक्षम हैं, लेकिन नए संदर्भ में इन ज्ञान का उपयोग करने में कठिनाई का सामना करते हैं।

शोध में यह भी पाया गया कि गणित के लिए विशेष रूप से डिज़ाइन किए गए छोटे मॉडलों में भी दोष हैं। उदाहरण के लिए, Qwen2.5-Math-7B-IT ने उच्च स्तर की हाई स्कूल गणित के प्रश्नों पर 80% से अधिक स्कोर किया, लेकिन श्रृंखलाबद्ध बुनियादी गणित के प्रश्नों पर उनकी सही दर 60% से कम थी। छोटे मॉडलों के लिए, निर्देश अनुकूलन की विधि हालांकि मूल GSM8K परीक्षण में प्रदर्शन को महत्वपूर्ण रूप से बढ़ा सकती है, लेकिन संयोजन GSM परीक्षण में सुधार बहुत कम है।

यह अध्ययन पूरी तरह से नवीन नहीं है, क्योंकि OpenAI द्वारा हाल ही में पेश किए गए तर्क अनुकूलन मॉडल o1 का परीक्षण में समावेश नहीं किया गया है। हालांकि संकेत हैं कि o1 की योजना बनाने की क्षमता में महत्वपूर्ण सुधार हुआ है, शोध से पता चलता है कि मानव गणित समस्याओं को हल करने की गति और सुंदरता में अभी भी श्रेष्ठता रखते हैं। गूगल का Gemini मॉडल भी हाल के अपडेट के बाद बेहतर गणितीय क्षमताएँ दिखा रहा है।

शोधकर्ता इस बात पर जोर देते हैं कि मौजूदा मूल्यांकन विधियाँ इन मॉडलों के प्रणालीगत अंतर को छिपा सकती हैं, जिससे छोटे मॉडलों की क्षमताओं का अधिक मूल्यांकन हो सकता है। वे कम लागत वाले एआई सिस्टम के विकास रणनीतियों की पुनः मूल्यांकन की मांग कर रहे हैं, और जटिल तर्क और सामान्यीकरण क्षमताओं में इन मॉडलों की अंतर्निहित सीमाओं पर सवाल उठा रहे हैं। यह अध्ययन हमें एआई सिस्टम की सीमाओं को समझने के लिए गहन अंतर्दृष्टि प्रदान करता है।

मुख्य बिंदु:

📉 छोटे एआई भाषा मॉडल श्रृंखलाबद्ध गणितीय समस्याओं को हल करने में खराब प्रदर्शन करते हैं, तर्क में अंतर 12 गुना तक है।  

🧮 यहां तक कि गणित के लिए विशेष रूप से डिज़ाइन किए गए छोटे मॉडल भी बुनियादी प्रश्नों पर 60% से कम सटीकता दिखाते हैं।  

🔍 मौजूदा मूल्यांकन विधियाँ छोटे मॉडलों की क्षमताओं का अधिक मूल्यांकन कर सकती हैं, और उनकी विकास रणनीतियों पर पुनर्विचार करने की आवश्यकता है।