हाल ही में, एक नए अध्ययन ने दिखाया है कि यहां तक कि उन्नत AI भाषा मॉडल, जैसे OpenAI का नवीनतम o1-preview, जटिल योजना कार्यों में भी असमर्थ प्रतीत होते हैं।

यह अध्ययन फुदान विश्वविद्यालय, कार्नेगी मेलॉन विश्वविद्यालय, बाइटडांस और ओहायो स्टेट यूनिवर्सिटी के वैज्ञानिकों द्वारा संयुक्त रूप से किया गया था, जिसने AI मॉडल के प्रदर्शन का परीक्षण दो योजना बेंचमार्क पर किया: BlocksWorld और TravelPlanner।

कृत्रिम बुद्धिमत्ता,AI,मानव मस्तिष्क,भविष्य

BlocksWorld इस क्लासिक योजना कार्य में, अधिकांश मॉडलों की सटीकता 50% से कम थी, केवल o1-mini (लगभग 60% से कम) और o1-preview (लगभग 100%) का प्रदर्शन अपेक्षाकृत अच्छा था।

हालांकि, जब शोधकर्ताओं ने अधिक जटिल TravelPlanner की ओर ध्यान दिया, तो सभी मॉडलों का प्रदर्शन निराशाजनक था। GPT-4o की अंतिम सफलता दर केवल 7.8% थी, जबकि o1-preview ने 15.6% हासिल किया। अन्य कुछ मॉडलों जैसे GPT-4o-Mini, Llama3.1 और Qwen2 के स्कोर 0 से 2.2% के बीच थे। जबकि o1-preview ने GPT-4o की तुलना में सुधार किया, फिर भी यह मानव योजना क्षमताओं के मुकाबले बहुत पीछे है।

शोधकर्ताओं ने दो मुख्य समस्याओं की ओर इशारा किया। पहली, मॉडल नियमों और शर्तों को एकीकृत करने में खराब प्रदर्शन करते हैं, जिसके कारण उनकी योजनाएँ अक्सर पूर्व निर्धारित दिशानिर्देशों का उल्लंघन करती हैं। दूसरी, योजना के समय बढ़ने के साथ, वे मूल समस्या पर ध्यान खोने लगते हैं। विभिन्न इनपुट घटकों के योजना प्रक्रिया पर प्रभाव को मापने के लिए, शोध टीम ने "विशेषता महत्वता को व्यवस्थित करने" की विधि का उपयोग किया।

इसके अलावा, शोध टीम ने AI की योजना क्षमताओं को बढ़ाने के लिए दो सामान्य रणनीतियों का परीक्षण किया। पहली रणनीति थी कथानक स्मृति अद्यतन, जो पिछले योजना प्रयासों से ज्ञान प्राप्त करने का प्रयास करती है, जिसने प्रतिबंधों की समझ में सुधार किया, लेकिन एकल नियमों पर अधिक विस्तृत विचार नहीं किया। दूसरी रणनीति थी पैरामीटर स्मृति अद्यतन, जो योजना पर कार्य के प्रभाव को बढ़ाने के लिए समायोजन करती है, लेकिन योजना के विस्तार के साथ, मुख्य समस्या - प्रभाव का कमजोर होना - फिर भी बनी रहती है। ये दोनों विधियाँ कुछ सुधार लाने में सफल रही, लेकिन मूल समस्या को पूरी तरह से हल नहीं कर सकीं।

यह उल्लेखनीय है कि अध्ययन से संबंधित कोड और डेटा जल्द ही GitHub पर सार्वजनिक किया जाएगा।

कोड का लिंक: https://github.com/hsaest/Agent-Planning-Analysis

महत्वपूर्ण बिंदु:

🌍 अध्ययन से पता चलता है कि OpenAI का o1-preview जैसे AI मॉडल जटिल यात्रा योजना में अच्छा प्रदर्शन नहीं करते हैं, GPT-4o की सफलता दर केवल 7.8% है।  

📉 अधिकांश मॉडल BlocksWorld में संतोषजनक प्रदर्शन करते हैं, लेकिन TravelPlanner पर सभी आदर्श परिणाम प्राप्त करने में असमर्थ हैं।  

🧠 अध्ययन से पता चला है कि मॉडल मुख्यतः नियमों के एकीकरण की कमी और समय के साथ ध्यान खोने की समस्या का सामना करते हैं।