एप्पल की एआई अनुसंधान टीम ने बड़े मॉडल के निष्पादन के कमजोर बिंदुओं की खोज की, एक वाक्य में OpenAI o1 को निष्क्रिय कर दिया

कृत्रिम बुद्धिमत्ता की दुनिया में, मशीन लर्निंग मॉडल, विशेष रूप से बड़े भाषा मॉडल (LLMs) की तर्कशक्ति हमेशा वैज्ञानिकों का ध्यान केंद्रित रही है।

हाल ही में, एप्पल के एआई शोध दल ने एक पेपर प्रकाशित किया, जिसका शीर्षक है "बड़े भाषा मॉडल की गणितीय तर्कशक्ति की सीमाओं को समझना", जो हमें दिखाता है कि ये मॉडल तार्किक समस्याओं को हल करने में कितने सीमित हैं।

इस पेपर में, शोधकर्ताओं ने एक साधारण गणितीय प्रश्न के माध्यम से यह प्रदर्शित किया। उन्होंने सबसे पहले ओलिवर द्वारा कीवी फल तोड़ने के बारे में एक प्रश्न प्रस्तुत किया:

जैसा कि नीचे दिखाया गया है:

ओलिवर ने शुक्रवार को 44 कीवी तोड़े। शनिवार को उसने 58 कीवी और तोड़े। रविवार को उसने जो कीवी तोड़े, वह शुक्रवार की संख्या का दो गुना था। ओलिवर के पास कुल कितने कीवी हैं?

स्पष्ट है, उत्तर है 44+58+ (44*2) =190। हालांकि बड़े भाषा मॉडल गणितीय दृष्टिकोण से वास्तव में पूर्ण नहीं हैं, वे इस तरह के प्रश्नों को काफी विश्वसनीयता से हल कर सकते हैं।

लेकिन अगर आप कुछ अप्रासंगिक जानकारी जोड़ते हैं, तो मॉडल की प्रतिक्रिया को देखने के लिए, जैसे:

ओलिवर ने शुक्रवार को 44 कीवी तोड़े। शनिवार को उसने 58 कीवी और तोड़े। रविवार को उसने जो कीवी तोड़े, वह शुक्रवार की संख्या का दो गुना था, लेकिन उनमें से 5 कीवी औसत आकार से छोटे थे। ओलिवर के पास कुल कितने कीवी हैं?

हालांकि इससे प्रश्न की गणितीय प्रकृति में कोई बदलाव नहीं आया, फिर भी सबसे उन्नत LLMs ने इस छोटे से हस्तक्षेप के तहत गलत उत्तर दिया। उदाहरण के लिए, GPT-o1-mini ने रविवार को तोड़े गए कीवी की कुल संख्या से 5 छोटे कीवी घटा दिए।

यह प्रयोग दिखाता है कि, हालांकि LLMs कुछ मामलों में सही उत्तर दे सकते हैं, वे वास्तव में प्रश्न की प्रकृति को नहीं समझते हैं।

शोधकर्ताओं का मानना है कि इन मॉडलों की विफलता के पैटर्न यह दर्शाते हैं कि वे वास्तव में तार्किक तर्क नहीं कर रहे हैं, बल्कि वे अपने प्रशिक्षण डेटा में देखे गए तर्क के चरणों की नकल कर रहे हैं। यह ऐसा है जैसे एक LLM "मैं तुमसे प्यार करता हूँ" के बाद सामान्यतः "मैं भी तुमसे प्यार करता हूँ" की सांख्यिकी निकाल सकता है, लेकिन इसका मतलब यह नहीं है कि वह वास्तव में प्यार के अर्थ को समझता है।

इस पेपर के सह-लेखक मेहरदाद फारजतबार ने सोशल मीडिया पर इस खोज को और स्पष्ट किया। उन्होंने कहा कि हालांकि बेहतर प्रॉम्प्ट इंजीनियरिंग के माध्यम से कुछ सरल मामलों में मॉडल के प्रदर्शन में सुधार किया जा सकता है, जटिल हस्तक्षेप के लिए, मॉडल को सही तरीके से निपटने के लिए अधिक संदर्भ डेटा की आवश्यकता हो सकती है, जबकि ये हस्तक्षेप एक बच्चे के लिए बिल्कुल भी समस्या नहीं हो सकते।

यह अध्ययन हमें याद दिलाता है कि, हालांकि LLMs भाषा प्रसंस्करण में उत्कृष्टता दिखाते हैं, लेकिन उनकी तार्किक तर्कशक्ति की क्षमता अभी भी सीमित है। यह केवल एक शैक्षणिक मुद्दा नहीं है, क्योंकि एआई प्रौद्योगिकी हमारे दैनिक जीवन का हिस्सा बनती जा रही है, इन समस्याओं के उत्तर और भी महत्वपूर्ण होते जा रहे हैं।

हमें यह मानने में सरलता नहीं करनी चाहिए कि एआई जटिल कार्यों को समझ और निष्पादित कर सकता है, बल्कि हमें उनकी कार्यप्रणाली और सीमाओं को और गहराई से समझने की आवश्यकता है। यह अध्ययन हमें एआई तकनीक की एक गहरी समझ प्रदान करता है, साथ ही हमें इन तकनीकों का उपयोग और विकास कैसे करना है, इस पर भी महत्वपूर्ण अंतर्दृष्टि देता है।

संदर्भ सामग्री: https://techcrunch.com/2024/10/11/researchers-question-ais-reasoning-ability-as-models-stumble-on-math-problems-with-trivial-changes/

AI समाचार

एप्पल की एआई अनुसंधान टीम ने बड़े मॉडल के निष्पादन के कमजोर बिंदुओं की खोज की, एक वाक्य में OpenAI o1 को निष्क्रिय कर दिया

AIbase基地

संबंधित AI समाचार अनुशंसाएँ

बायोमेडिकल अनुसंधान में सहायता करने वाला ओपन-सोर्स फ़्रेमवर्क BioChatter, LLM के उपयोग की बाधाओं को कम करता है

सुरक्षा खतरों से सावधान रहें! Ollama बड़े भाषा मॉडल उपकरण में गंभीर कमियाँ पाई गईं

गूगल ने वन्यजीवों की पहचान में मदद के लिए SpeciesNet AI मॉडल जारी किया

नेटफ्लिक्स ने मशीन लर्निंग वैज्ञानिकों और इंजीनियरों की भर्ती की सामग्री को स्मार्ट बनाने के लिए