हाल ही में, बाइटडांस डौबाओ बड़े मॉडल टीम ने मल्टी-एसडब्ल्यूई-बेंच को ओपन सोर्स करने की घोषणा की, जो उद्योग का पहला बहुभाषीय कोड सुधार बेंचमार्क डेटासेट है, जो बड़े मॉडल की "स्वचालित रूप से बग ठीक करने" की क्षमता के मूल्यांकन और सुधार के लिए एक नई सफलता लाता है।
बड़े मॉडल तकनीक के तेजी से विकास के दौर में, कोड जेनरेशन कार्य मॉडल की बुद्धिमत्ता की जांच करने का एक महत्वपूर्ण क्षेत्र बन गया है। एसडब्ल्यूई-बेंच जैसे कोड सुधार बेंचमार्क, हालांकि मॉडल की प्रोग्रामिंग बुद्धिमत्ता को माप सकते हैं, लेकिन उनकी स्पष्ट सीमाएँ हैं। यह केवल पायथन भाषा पर केंद्रित है, मॉडल की क्रॉस-भाषा सामान्यीकरण क्षमता का मूल्यांकन नहीं कर सकता; और कार्य की कठिनाई सीमित है, जटिल विकास परिदृश्यों को कवर नहीं कर सकता है, जिससे बड़े मॉडल कोड बुद्धिमत्ता का आगे विकास बाधित होता है।
विभिन्न मॉडल कोड क्षमता मूल्यांकन स्कोर
मल्टी-एसडब्ल्यूई-बेंच का उदय हुआ है, यह एसडब्ल्यूई-बेंच पर एक महत्वपूर्ण छलांग है, पहली बार जावा, टाइपस्क्रिप्ट, सी, सी++, गो, रस्ट और जावास्क्रिप्ट जैसी 7 मुख्य प्रोग्रामिंग भाषाओं को कवर करता है, जिससे वास्तविक ओपन सोर्स रिपॉजिटरी से 1632 सुधार कार्य बनाए गए हैं। इन कार्यों को सख्त स्क्रीनिंग और मैनुअल सत्यापन के माध्यम से पारित किया गया है, ताकि गुणवत्ता विश्वसनीय हो। साथ ही, मल्टी-एसडब्ल्यूई-बेंच ने कठिनाई स्तरीकरण तंत्र को पेश किया है, जिसे सरल, मध्यम और कठिन तीन श्रेणियों में विभाजित किया गया है, जो विभिन्न क्षमता स्तरों पर मॉडल के प्रदर्शन का अधिक व्यापक मूल्यांकन कर सकता है।
इस डेटासेट पर आधारित प्रयोगों से पता चलता है कि वर्तमान बड़े भाषा मॉडल पायथन सुधार में अभी भी ठीक प्रदर्शन करते हैं, लेकिन अन्य भाषाओं को संसाधित करते समय औसत सुधार दर 10% से कम है, जो दर्शाता है कि बहुभाषीय कोड सुधार अभी भी बड़े मॉडल के लिए एक चुनौती है।
कुछ मुख्य मॉडल पायथन में बेहतर प्रदर्शन करते हैं, जबकि अन्य भाषाओं के लिए स्कोर खराब होता है। साथ ही, कार्य की कठिनाई बढ़ने के साथ, मॉडल की सुधार दर में क्रमशः गिरावट आती है।
स्वचालित प्रोग्रामिंग के क्षेत्र में सुदृढीकरण सीखने के अनुप्रयोग को मजबूत करने के लिए, टीम ने मल्टी-एसडब्ल्यूई-आरएल को भी एक साथ ओपन सोर्स किया है, जो 4723 उदाहरण और सहायक प्रतिकृति योग्य डॉकर वातावरण प्रदान करता है, जो एक-क्लिक प्रारंभ, स्वचालित मूल्यांकन आदि कार्यों का समर्थन करता है, जिससे आरएल प्रशिक्षण के लिए एक मानकीकृत डेटा आधार बनाया जाता है। इसके अलावा, टीम ने ओपन सोर्स समुदाय योजना शुरू की है, डेवलपर्स और शोधकर्ताओं को डेटासेट विस्तार, नई विधि मूल्यांकन आदि में भाग लेने के लिए आमंत्रित करती है, ताकि कोड के लिए आरएल पारिस्थितिकी निर्माण को संयुक्त रूप से आगे बढ़ाया जा सके।
बाइटडांस डौबाओ बड़े मॉडल टीम ने कहा कि वे आशा करते हैं कि मल्टी-एसडब्ल्यूई-बेंच स्वचालित प्रोग्रामिंग तकनीक को एक नई ऊंचाई तक ले जा सकता है, और भविष्य में इसके कवरेज का विस्तार जारी रखेगा, जिससे बड़े मॉडल को "स्वचालित सॉफ्टवेयर इंजीनियरिंग" के क्षेत्र में बड़ी प्रगति करने में मदद मिलेगी।