लेख ने वर्तमान बड़े मॉडल परीक्षण प्रणाली में "स्कोरिंग की अनियमितताओं" का विश्लेषण किया है, जिसमें कहा गया है कि बड़े मॉडल की सूची में व्यापक रूप से "हर कोई पहले" की स्थिति है। मौजूदा ओपन-सोर्स स्कोरिंग डेटा सेट "प्रश्न हल करने" की घटना को जन्म देते हैं; जबकि बंद निजी डेटा सेट निष्पक्षता को प्रभावित करते हैं। इसके अलावा, कुछ सूचियों के परीक्षण आयाम भी पर्याप्त वैज्ञानिक और व्यापक नहीं हैं। लेख ने एक प्राधिकृत परीक्षण प्रणाली स्थापित करने, निष्पक्षता सुनिश्चित करने के लिए ओपन-सोर्स परीक्षण उपकरण और प्रक्रियाओं की सिफारिश की है, लेकिन परीक्षण डेटा सेट को ओपन हिस्ट्री + बंद औपचारिक मॉडल अपनाने की सलाह दी है। इसके अलावा, बड़े मॉडल का व्यावसायीकरण मॉडल के पैरामीटर और सूची रैंकिंग की तुलना में कहीं अधिक महत्वपूर्ण है।
“बैक मोड जंग” में घर का पहला स्थान, बड़े मॉडल की “रन स्कोर” धोखाधड़ी कब खत्म होगी?

罗超频道
यह लेख AIbase दैनिक से है
【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।