हाल ही में, एप्पल कंपनी के शोधकर्ताओं ने बड़े भाषा मॉडल (LLM) की गणितीय तर्क क्षमता पर गहन अध्ययन किया और GSM-Symbolic नामक एक नया मानक परीक्षण प्रस्तुत किया।
यह नया मानक परीक्षण GSM8K के आधार पर विकसित किया गया है, जो मुख्य रूप से मूल गणितीय क्षमताओं का मूल्यांकन करने के लिए उपयोग किया जाता है। हालांकि कई LLM ने GSM8K पर प्रदर्शन में सुधार किया है, लेकिन वैज्ञानिक समुदाय को इन मॉडलों की तर्क क्षमता पर संदेह है, और उनका मानना है कि मौजूदा मूल्यांकन मानदंड उनकी वास्तविक क्षमताओं को पूरी तरह से प्रतिबिंबित नहीं कर सकते। शोध से पता चला है कि LLM आमतौर पर वास्तविक तर्क करने के बजाय संभाव्यता पैटर्न मिलान पर निर्भर करते हैं, जिससे वे इनपुट में छोटे परिवर्तनों के प्रति बहुत संवेदनशील हो जाते हैं।
इस नए शोध में, शोधकर्ताओं ने विविध गणितीय प्रश्न उत्पन्न करने के लिए प्रतीकात्मक टेम्पलेट्स का उपयोग किया, जिससे अधिक विश्वसनीय मूल्यांकन प्रदान किया जा सके। प्रयोगात्मक परिणाम दिखाते हैं कि जब प्रश्नों के मान या जटिलता में वृद्धि होती है, तो LLM का प्रदर्शन महत्वपूर्ण रूप से गिर जाता है। इसके अतिरिक्त, भले ही प्रश्न के सतही संबंधित लेकिन वास्तव में अप्रासंगिक जानकारी जोड़ी जाए, तब भी मॉडल के प्रदर्शन में 65% तक की कमी आ सकती है। ये परिणाम फिर से पुष्टि करते हैं कि LLM तर्क करते समय अधिकतर पैटर्न मिलान पर निर्भर करते हैं, न कि औपचारिक तर्क पर।
GSM8K डेटा सेट में 8000 से अधिक ग्रेड स्तर के गणितीय प्रश्न शामिल हैं, जिसकी लोकप्रियता ने कुछ जोखिमों को जन्म दिया है, जैसे डेटा प्रदूषण और छोटे प्रश्न परिवर्तनों के कारण प्रदर्शन में उतार-चढ़ाव। इन चुनौतियों का सामना करने के लिए, GSM-Symbolic का उदय प्रश्नों की विविधता को प्रभावी ढंग से नियंत्रित करता है। इस मानक परीक्षण ने 20 से अधिक खुले और बंद मॉडलों का मूल्यांकन किया, जिसमें 100 टेम्पलेट्स से 5000 नमूनों का उपयोग किया गया, जिसने गणितीय तर्क क्षमता में LLM की गहरी अंतर्दृष्टि और सीमाओं को प्रदर्शित किया।
प्रारंभिक प्रयोगों से पता चलता है कि विभिन्न मॉडलों का GSM-Symbolic पर प्रदर्शन में महत्वपूर्ण भिन्नताएँ हैं, और कुल सटीकता GSM8K पर रिपोर्ट किए गए प्रदर्शन से कम है। शोध ने LLM पर चर नामों और मानों को बदलने के प्रभाव की और जांच की, परिणाम बताते हैं कि मान परिवर्तन का प्रदर्शन पर अधिक प्रभाव पड़ता है। इसके अलावा, प्रश्न की जटिलता भी सटीकता को सीधे प्रभावित करती है, जटिल प्रश्न प्रदर्शन में महत्वपूर्ण कमी का कारण बनते हैं। ये परिणाम बताते हैं कि मॉडल गणितीय प्रश्नों को संभालने में अधिकतर पैटर्न मिलान पर निर्भर हो सकते हैं, न कि वास्तविक तर्क क्षमता पर।
यह अध्ययन वर्तमान GSM8K मूल्यांकन की सीमाओं को उजागर करता है और नए मानक GSM-Symbolic को प्रस्तुत करता है, जिसका उद्देश्य LLM की गणितीय तर्क क्षमता का मूल्यांकन करना है। कुल मिलाकर, शोध के परिणाम बताते हैं कि LLM को जटिल प्रश्नों को संभालने में तर्क क्षमता को और सुधारने की आवश्यकता है।
पत्र: https://arxiv.org/abs/2410.05229
मुख्य बिंदु:
🧮 शोधकर्ताओं ने नए मानक GSM-Symbolic को प्रस्तुत किया, LLM की गणितीय तर्क क्षमता का मूल्यांकन करने के लिए।
📉 LLM जटिल गणितीय प्रश्नों को संभालने में खराब प्रदर्शन करते हैं, पैटर्न मिलान पर निर्भर करते हैं न कि तर्क पर।
📊 शोध ने नए मानक के तहत विभिन्न मॉडलों के प्रदर्शन में महत्वपूर्ण भिन्नताएँ उजागर की हैं, मूल्यांकन विधियों में सुधार की आवश्यकता पर जोर दिया।