फ़ैक्टोरियो एक जटिल कंप्यूटर गेम है जो निर्माण और संसाधन प्रबंधन पर केंद्रित है, हाल ही में यह शोधकर्ताओं के लिए कृत्रिम बुद्धिमत्ता की क्षमता का मूल्यांकन करने का एक नया उपकरण बन गया है। यह गेम भाषा मॉडल की जटिल सिस्टम की योजना बनाने और बनाने की क्षमता का परीक्षण कर सकता है, साथ ही कई संसाधनों और उत्पादन श्रृंखलाओं का प्रबंधन भी कर सकता है।

इसके लिए, शोध दल ने "फ़ैक्टोरियो लर्निंग एनवायरनमेंट" (FLE) नामक एक प्रणाली विकसित की है, जो दो अलग-अलग परीक्षण मोड प्रदान करती है। "प्रयोगात्मक मोड" में 24 संरचित चुनौतियाँ शामिल हैं, जिनमें विशिष्ट लक्ष्य और सीमित संसाधन निर्धारित हैं, कार्य सरल दो-मशीन निर्माण से लेकर जटिल लगभग सौ-मशीन कारखानों तक हैं। जबकि "ओपन मोड" में, AI एजेंट प्रोग्राम-जनित मानचित्रों का पता लगा सकते हैं, एकमात्र लक्ष्य यथासंभव बड़ा कारखाना बनाना है।

QQ_1742179022792.png

एजेंट एक पायथन API के माध्यम से फ़ैक्टोरियो के साथ इंटरैक्ट करते हैं, विभिन्न कार्यों को निष्पादित करने और गेम की स्थिति की जांच करने के लिए कोड उत्पन्न कर सकते हैं। यह प्रणाली भाषा मॉडल की प्रोग्राम संश्लेषण क्षमता और जटिल प्रणालियों को संभालने की क्षमता का परीक्षण करने के लिए डिज़ाइन की गई है। API एजेंट को घटकों को रखने और जोड़ने, संसाधनों का प्रबंधन करने और उत्पादन की प्रगति की निगरानी करने जैसे कार्यों को करने की अनुमति देता है।

एजेंट के प्रदर्शन का मूल्यांकन करने के लिए, शोधकर्ताओं ने दो प्रमुख संकेतकों का उपयोग किया: "उत्पादन स्कोर", जिसका उपयोग कुल उत्पादन मूल्य की गणना करने के लिए किया जाता है, और उत्पादन श्रृंखला की जटिलता में वृद्धि के साथ तेजी से बढ़ता है; "मील के पत्थर" नए आइटम बनाना या प्रौद्योगिकी का अध्ययन करना जैसे महत्वपूर्ण उपलब्धियों पर नज़र रखता है। गेम का आर्थिक सिमुलेशन संसाधनों की कमी, बाजार मूल्य और उत्पादन दक्षता जैसे कारकों पर विचार करता है।

एंथ्रोपिक के वैज्ञानिकों सहित शोध दल ने FLE वातावरण में छह अग्रणी भाषा मॉडल के प्रदर्शन का मूल्यांकन किया, जिसमें Claude3.5Sonnet, GPT-4o और इसके मिनी संस्करण, DeepSeek-V3, Gemini2.0Flash और Llama-3.3-70B-Instruct शामिल हैं। इस परीक्षण दौर में, बड़े तर्क मॉडल (LRM) शामिल नहीं थे, लेकिन पिछले बेंचमार्क परीक्षणों से पता चला है कि o1 जैसे मॉडल योजना बनाने की क्षमता में उत्कृष्ट प्रदर्शन करते हैं, हालांकि उनकी अपनी सीमाएँ भी हैं।

QQ_1742179008947.png

परीक्षण से पता चला है कि मूल्यांकन में शामिल भाषा मॉडल को स्थानिक तर्क, दीर्घकालिक योजना और त्रुटि सुधार में महत्वपूर्ण चुनौतियों का सामना करना पड़ता है। कारखाना बनाते समय, AI एजेंटों को मशीनों को कुशलतापूर्वक व्यवस्थित करने और जोड़ने में कठिनाई होती है, जिसके कारण अनुकूलतम लेआउट और उत्पादन की बाधाएँ होती हैं। रणनीतिक सोच भी एक चुनौती बन गई, मॉडल आम तौर पर दीर्घकालिक योजना के बजाय अल्पकालिक लक्ष्यों को प्राथमिकता देते हैं। इसके अलावा, हालांकि वे बुनियादी समस्या निवारण को संभाल सकते हैं, अधिक जटिल समस्याओं का सामना करते समय, वे अक्सर अकुशल डिबगिंग चक्र में फंस जाते हैं।

परीक्षण किए गए मॉडल में, Claude3.5Sonnet ने सबसे अच्छा प्रदर्शन किया, लेकिन फिर भी सभी चुनौतियों में महारत हासिल नहीं कर पाया। प्रयोगात्मक मोड में, क्लाउड ने 24 कार्यों में से 15 को सफलतापूर्वक पूरा किया, जबकि अन्य मॉडल ने अधिकतम 10 कार्य पूरे किए। खुले परीक्षण में, क्लाउड का उत्पादन स्कोर 2456 था, इसके बाद GPT-4o 1789 स्कोर के साथ था। क्लाउड ने जटिल फ़ैक्टोरियो गेमप्ले का प्रदर्शन किया, अपनी रणनीतिक निर्माण और अनुसंधान विधियों के माध्यम से, बुनियादी उत्पादों से जटिल उत्पादन प्रक्रियाओं में तेजी से आगे बढ़ा, खासकर ड्रिल तकनीक में सुधार ने लोहे के उत्पादन की गति में उल्लेखनीय वृद्धि की।

शोधकर्ताओं का मानना ​​है कि FLE की खुली और स्केलेबल विशेषताएँ इसे भविष्य में अधिक शक्तिशाली भाषा मॉडल का परीक्षण करने में महत्वपूर्ण मूल्य प्रदान करती हैं। उन्होंने सुझाव दिया कि इस वातावरण का विस्तार बहु-एजेंट परिदृश्यों और मानव प्रदर्शन बेंचमार्क को शामिल करने के लिए किया जाए ताकि बेहतर मूल्यांकन संदर्भ प्रदान किया जा सके। यह कार्य गेम-आधारित AI बेंचमार्किंग के संग्रह को और समृद्ध करता है, जिसमें BALROG और आगामी MCBench भी शामिल हैं, जो माइनक्राफ्ट का उपयोग करके मॉडल परीक्षण करेंगे।

फ़ैक्टोरियो लर्निंग एनवायरनमेंट:https://top.aibase.com/tool/factorio-learning-environment

मुख्य बातें:

🌟 फ़ैक्टोरियो गेम AI क्षमता का मूल्यांकन करने के लिए एक नया उपकरण बन गया है, जो भाषा मॉडल की जटिल सिस्टम प्रबंधन क्षमता का परीक्षण करता है।

🛠️ फ़ैक्टोरियो लर्निंग एनवायरनमेंट (FLE) प्रयोगात्मक और खुले मोड प्रदान करता है, जिससे AI विभिन्न परिस्थितियों में चुनौतियों का सामना कर सकता है।

📊 परीक्षण से पता चला है कि Claude3.5Sonnet ने सबसे अच्छा प्रदर्शन किया, लेकिन फिर भी दीर्घकालिक योजना और जटिल समस्याओं को संभालने में कठिनाई है।