हाल ही में, Reddit उपयोगकर्ता @zefman ने एक दिलचस्प प्रयोग किया, जिसमें एक प्लेटफ़ॉर्म बनाया गया, जिससे विभिन्न भाषा मॉडल (LLM) वास्तविक समय में शतरंज खेल सकें, इसका उद्देश्य उपयोगकर्ताओं के लिए एक मजेदार और आसान तरीका प्रदान करना था जिससे वे इन मॉडलों के प्रदर्शन का मूल्यांकन कर सकें।

image.png

यह सभी के लिए ज्ञात है कि ये मॉडल शतरंज खेलने में उत्कृष्ट नहीं हैं, लेकिन फिर भी, उन्होंने महसूस किया कि इस प्रयोग में कुछ ध्यान देने योग्य विशेषताएँ पाई जा सकती हैं।

इस प्रयोग में, @zefman ने कुछ नवीनतम मॉडलों पर विशेष ध्यान दिया, जिसमें GPT-4o का प्रदर्शन सबसे उत्कृष्ट रहा, जिसने बिना किसी संदेह के सबसे मजबूत प्रतियोगी का दर्जा प्राप्त किया। इसी समय, @zefman ने इसे Claude, Gemini और अन्य मॉडलों के साथ तुलना की, उनके प्रदर्शन के अंतर का अवलोकन किया और पाया कि प्रत्येक मॉडल की सोचने और तर्क करने की प्रक्रिया बहुत दिलचस्प है। इस प्लेटफ़ॉर्म के माध्यम से, सभी लोग देख सकते हैं कि प्रत्येक कदम के निर्णय के पीछे, मॉडल कैसे खेल की स्थिति का विश्लेषण करता है।

@zefman द्वारा डिज़ाइन किया गया शतरंज बोर्ड दिखाने का तरीका काफी सरल है, प्रत्येक मॉडल समान शतरंज स्थिति का सामना करते समय समान संकेत प्रदान करता है, जिसमें वर्तमान शतरंज स्थिति, FEN (शतरंज स्थिति का निरूपण) और उनके पिछले दो चालें शामिल हैं। यह तरीका सुनिश्चित करता है कि प्रत्येक मॉडल का निर्णय समान जानकारी पर आधारित हो, ताकि तुलना अधिक निष्पक्ष हो सके।

प्रत्येक मॉडल पूरी तरह से समान संकेतों का उपयोग करता है, जो ASCI, FEN में बोर्ड की स्थिति और उनके पिछले दो चालों और सोच के अनुसार अद्यतन होता है। नीचे एक उदाहरण है:

image.png

इसके अलावा, @zefman ने यह भी देखा कि कुछ मामलों में, विशेष रूप से कुछ कमजोर प्रदर्शन वाले मॉडलों के लिए, वे कई बार गलत चाल चुन सकते हैं। इस समस्या को हल करने के लिए, उन्होंने इन मॉडलों को 5 बार पुनः चयन का अवसर दिया, यदि वे फिर भी एक प्रभावी चाल नहीं चुन पाते हैं, तो वे एक प्रभावी चाल को यादृच्छिक रूप से चुनेंगे, ताकि खेल जारी रह सके।

उन्होंने यह निष्कर्ष निकाला: GTP-4o अभी भी सबसे मजबूत है, जिसने शतरंज में Gemini1.5pro को हराया।

मुख्य बिंदु:

🌟 GPT-4o उत्कृष्ट प्रदर्शन करता है, प्रयोग में सबसे मजबूत भाषा मॉडल बनता है।

♟️ प्रयोग विभिन्न मॉडलों को वास्तविक समय में खेल खेलने की अनुमति देता है, उनके सोचने की प्रक्रिया का विश्लेषण करता है।

🔄 कमजोर प्रदर्शन वाले मॉडल कभी-कभी गलत चाल चुन सकते हैं, जो एक दिलचस्प इंटरैक्टिव अनुभव प्रदान करता है।