Meta ने शनिवार को अपना नया प्रमुख AI मॉडल Maverick जारी किया, जो LM Arena मूल्यांकन में दूसरे स्थान पर रहा। LM Arena एक ऐसा परीक्षण मंच है जो मानव मूल्यांककों पर निर्भर करता है जो विभिन्न मॉडल आउटपुट की तुलना करते हैं और अपनी पसंद का चयन करते हैं। हालाँकि, कई AI शोधकर्ताओं ने जल्द ही पाया कि Meta द्वारा LM Arena में तैनात Maverick संस्करण, डेवलपर्स द्वारा व्यापक रूप से उपयोग किए जाने वाले संस्करण से काफी भिन्न प्रतीत होता है।

Facebook मेटावर्स meta

Meta ने अपनी घोषणा में स्वीकार किया कि LM Arena पर Maverick एक "प्रायोगिक चैट संस्करण" है। इसी समय, Llama की आधिकारिक वेबसाइट पर दिए गए चार्ट से पता चलता है कि Meta के LM Arena परीक्षण में "संवाद के लिए अनुकूलित Llama4Maverick" का उपयोग किया गया था। इस अंतर ने शोध समुदाय में सवाल उठाए हैं।

AI शोधकर्ताओं ने सोशल मीडिया प्लेटफॉर्म X पर बताया कि सार्वजनिक रूप से डाउनलोड करने योग्य Maverick और LM Arena पर होस्ट किए गए संस्करण के बीच स्पष्ट व्यवहारिक अंतर हैं। LM Arena संस्करण में बड़ी संख्या में इमोजी का उपयोग करना और लंबे उत्तर देना शामिल है, जो मानक संस्करण में आम नहीं है। नेथन लैम्बर्ट नाम के एक शोधकर्ता ने X पर इस खोज को साझा करते हुए व्यंग्यात्मक रूप से टिप्पणी की: "ठीक है, Llama4 निश्चित रूप से थोड़ा पका हुआ है, हाहा, यह यापु शहर का क्या स्थान है", और संबंधित स्क्रीनशॉट संलग्न किए।

किसी विशिष्ट बेंचमार्क परीक्षण के लिए मॉडल को अनुकूलित करने और फिर "मूल" संस्करण जारी करने की इस पद्धति ने गंभीर समस्याएँ पैदा की हैं, मुख्यतः क्योंकि इससे डेवलपर्स के लिए वास्तविक अनुप्रयोग परिदृश्यों में मॉडल के प्रदर्शन की सटीक भविष्यवाणी करना मुश्किल हो जाता है। इसके अलावा, इस पद्धति को भ्रामक भी माना जाता है, क्योंकि बेंचमार्क परीक्षण का उद्देश्य विभिन्न कार्यों में एकल मॉडल के फायदे और नुकसान का एक उद्देश्यपूर्ण स्नैपशॉट प्रदान करना है।

हालांकि LM Arena को विभिन्न कारणों से AI मॉडल के प्रदर्शन को मापने के लिए सबसे विश्वसनीय संकेतक के रूप में नहीं माना जाता है, लेकिन AI कंपनियां आमतौर पर यह सार्वजनिक रूप से स्वीकार नहीं करती हैं कि उन्होंने मूल्यांकन में बेहतर स्कोर प्राप्त करने के लिए मॉडल को विशेष रूप से अनुकूलित किया है। Meta का यह तरीका इस परंपरा को तोड़ता हुआ प्रतीत होता है, जिससे AI मॉडल मूल्यांकन की पारदर्शिता पर व्यापक चर्चा शुरू हो गई है।