लेख ने वर्तमान बड़े मॉडल परीक्षण प्रणाली में "स्कोरिंग की अनियमितताओं" का विश्लेषण किया है, जिसमें कहा गया है कि बड़े मॉडल की सूची में व्यापक रूप से "हर कोई पहले" की स्थिति है। मौजूदा ओपन-सोर्स स्कोरिंग डेटा सेट "प्रश्न हल करने" की घटना को जन्म देते हैं; जबकि बंद निजी डेटा सेट निष्पक्षता को प्रभावित करते हैं। इसके अलावा, कुछ सूचियों के परीक्षण आयाम भी पर्याप्त वैज्ञानिक और व्यापक नहीं हैं। लेख ने एक प्राधिकृत परीक्षण प्रणाली स्थापित करने, निष्पक्षता सुनिश्चित करने के लिए ओपन-सोर्स परीक्षण उपकरण और प्रक्रियाओं की सिफारिश की है, लेकिन परीक्षण डेटा सेट को ओपन हिस्ट्री + बंद औपचारिक मॉडल अपनाने की सलाह दी है। इसके अलावा, बड़े मॉडल का व्यावसायीकरण मॉडल के पैरामीटर और सूची रैंकिंग की तुलना में कहीं अधिक महत्वपूर्ण है।