कृत्रिम बुद्धिमत्ता की दुनिया में, मशीन लर्निंग मॉडल, विशेष रूप से बड़े भाषा मॉडल (LLMs) की तर्कशक्ति हमेशा वैज्ञानिकों का ध्यान केंद्रित रही है।

हाल ही में, एप्पल के एआई शोध दल ने एक पेपर प्रकाशित किया, जिसका शीर्षक है "बड़े भाषा मॉडल की गणितीय तर्कशक्ति की सीमाओं को समझना", जो हमें दिखाता है कि ये मॉडल तार्किक समस्याओं को हल करने में कितने सीमित हैं।

image.png

इस पेपर में, शोधकर्ताओं ने एक साधारण गणितीय प्रश्न के माध्यम से यह प्रदर्शित किया। उन्होंने सबसे पहले ओलिवर द्वारा कीवी फल तोड़ने के बारे में एक प्रश्न प्रस्तुत किया:

जैसा कि नीचे दिखाया गया है:

ओलिवर ने शुक्रवार को 44 कीवी तोड़े। शनिवार को उसने 58 कीवी और तोड़े। रविवार को उसने जो कीवी तोड़े, वह शुक्रवार की संख्या का दो गुना था। ओलिवर के पास कुल कितने कीवी हैं?

स्पष्ट है, उत्तर है 44+58+ (44*2) =190। हालांकि बड़े भाषा मॉडल गणितीय दृष्टिकोण से वास्तव में पूर्ण नहीं हैं, वे इस तरह के प्रश्नों को काफी विश्वसनीयता से हल कर सकते हैं।

लेकिन अगर आप कुछ अप्रासंगिक जानकारी जोड़ते हैं, तो मॉडल की प्रतिक्रिया को देखने के लिए, जैसे:

ओलिवर ने शुक्रवार को 44 कीवी तोड़े। शनिवार को उसने 58 कीवी और तोड़े। रविवार को उसने जो कीवी तोड़े, वह शुक्रवार की संख्या का दो गुना था, लेकिन उनमें से 5 कीवी औसत आकार से छोटे थे। ओलिवर के पास कुल कितने कीवी हैं?

हालांकि इससे प्रश्न की गणितीय प्रकृति में कोई बदलाव नहीं आया, फिर भी सबसे उन्नत LLMs ने इस छोटे से हस्तक्षेप के तहत गलत उत्तर दिया। उदाहरण के लिए, GPT-o1-mini ने रविवार को तोड़े गए कीवी की कुल संख्या से 5 छोटे कीवी घटा दिए।

2.jpg

यह प्रयोग दिखाता है कि, हालांकि LLMs कुछ मामलों में सही उत्तर दे सकते हैं, वे वास्तव में प्रश्न की प्रकृति को नहीं समझते हैं।

शोधकर्ताओं का मानना है कि इन मॉडलों की विफलता के पैटर्न यह दर्शाते हैं कि वे वास्तव में तार्किक तर्क नहीं कर रहे हैं, बल्कि वे अपने प्रशिक्षण डेटा में देखे गए तर्क के चरणों की नकल कर रहे हैं। यह ऐसा है जैसे एक LLM "मैं तुमसे प्यार करता हूँ" के बाद सामान्यतः "मैं भी तुमसे प्यार करता हूँ" की सांख्यिकी निकाल सकता है, लेकिन इसका मतलब यह नहीं है कि वह वास्तव में प्यार के अर्थ को समझता है।

image.png

इस पेपर के सह-लेखक मेहरदाद फारजतबार ने सोशल मीडिया पर इस खोज को और स्पष्ट किया। उन्होंने कहा कि हालांकि बेहतर प्रॉम्प्ट इंजीनियरिंग के माध्यम से कुछ सरल मामलों में मॉडल के प्रदर्शन में सुधार किया जा सकता है, जटिल हस्तक्षेप के लिए, मॉडल को सही तरीके से निपटने के लिए अधिक संदर्भ डेटा की आवश्यकता हो सकती है, जबकि ये हस्तक्षेप एक बच्चे के लिए बिल्कुल भी समस्या नहीं हो सकते।

यह अध्ययन हमें याद दिलाता है कि, हालांकि LLMs भाषा प्रसंस्करण में उत्कृष्टता दिखाते हैं, लेकिन उनकी तार्किक तर्कशक्ति की क्षमता अभी भी सीमित है। यह केवल एक शैक्षणिक मुद्दा नहीं है, क्योंकि एआई प्रौद्योगिकी हमारे दैनिक जीवन का हिस्सा बनती जा रही है, इन समस्याओं के उत्तर और भी महत्वपूर्ण होते जा रहे हैं।

हमें यह मानने में सरलता नहीं करनी चाहिए कि एआई जटिल कार्यों को समझ और निष्पादित कर सकता है, बल्कि हमें उनकी कार्यप्रणाली और सीमाओं को और गहराई से समझने की आवश्यकता है। यह अध्ययन हमें एआई तकनीक की एक गहरी समझ प्रदान करता है, साथ ही हमें इन तकनीकों का उपयोग और विकास कैसे करना है, इस पर भी महत्वपूर्ण अंतर्दृष्टि देता है।

संदर्भ सामग्री: https://techcrunch.com/2024/10/11/researchers-question-ais-reasoning-ability-as-models-stumble-on-math-problems-with-trivial-changes/