OpenAI द्वारा SWE-Lancer बेंचमार्क टेस्ट लॉन्च किया गया: वास्तविक दुनिया के फ्रीलांस सॉफ्टवेयर इंजीनियरिंग कार्यों के लिए मॉडल प्रदर्शन का आकलन

सॉफ़्टवेयर इंजीनियरिंग के क्षेत्र में, चुनौतियों के निरंतर विकास के साथ, पारंपरिक बेंचमार्किंग विधियाँ अपर्याप्त प्रतीत होती हैं। स्वतंत्र रूप से काम करने वाले सॉफ़्टवेयर इंजीनियरिंग कार्य जटिल और विविध होते हैं, जो केवल एकल कोडिंग कार्यों से कहीं अधिक होते हैं। स्वतंत्र इंजीनियरों को संपूर्ण कोडबेस को संभालना, विभिन्न सिस्टम को एकीकृत करना और जटिल ग्राहक आवश्यकताओं को पूरा करना होता है। पारंपरिक मूल्यांकन विधियाँ आमतौर पर यूनिट परीक्षण पर केंद्रित होती हैं, जो पूर्ण स्टैक प्रदर्शन और समाधानों के वास्तविक आर्थिक प्रभाव को पर्याप्त रूप से प्रतिबिंबित नहीं करती हैं। इसलिए, अधिक वास्तविक मूल्यांकन विधियों का विकास करना अत्यंत महत्वपूर्ण हो गया है।

इसलिए, OpenAI ने SWE-Lancer पेश किया, जो वास्तविक दुनिया के स्वतंत्र सॉफ़्टवेयर इंजीनियरिंग कार्यों के लिए मॉडल प्रदर्शन मूल्यांकन का बेंचमार्क है। यह बेंचमार्क Upwork और Expensify रिपॉजिटरी से 1400 से अधिक स्वतंत्र कार्यों पर आधारित है, जिसमें कुल भुगतान राशि 1 मिलियन डॉलर तक पहुँचती है। इन कार्यों में छोटे बग फिक्स से लेकर बड़े फ़ीचर कार्यान्वयन तक सब कुछ शामिल है। SWE-Lancer का उद्देश्य व्यक्तिगत कोड पैच और प्रबंधन निर्णयों का मूल्यांकन करना है, जिसमें मॉडल से कई विकल्पों में से सर्वश्रेष्ठ प्रस्ताव का चयन करने की आवश्यकता होती है। यह विधि वास्तविक इंजीनियरिंग टीमों की दोहरी भूमिका को बेहतर ढंग से दर्शाती है।

SWE-Lancer का एक बड़ा लाभ यह है कि यह अंत-से-अंत परीक्षण का उपयोग करता है, न कि अलग-अलग यूनिट परीक्षण। ये परीक्षण पेशेवर सॉफ़्टवेयर इंजीनियरों द्वारा ध्यानपूर्वक डिज़ाइन और मान्य किए गए हैं, जो समस्या पहचान, डिबगिंग से लेकर पैच सत्यापन तक के पूरे उपयोगकर्ता कार्यप्रवाह का अनुकरण कर सकते हैं। एकीकृत Docker इमेज का उपयोग करके मूल्यांकन करने से बेंचमार्क यह सुनिश्चित करता है कि प्रत्येक मॉडल को समान नियंत्रित परिस्थितियों में परीक्षण किया जाए। यह कठोर परीक्षण ढांचा यह उजागर करने में मदद करता है कि क्या मॉडल के समाधान पर्याप्त रूप से मजबूत हैं और वास्तविक तैनाती के लिए उपयुक्त हैं।

SWE-Lancer की तकनीकी विशेषताएँ कुशलता से डिज़ाइन की गई हैं, जो स्वतंत्र कार्यों की वास्तविकता को सटीकता से दर्शाती हैं। कार्यों में कई फ़ाइलों में संशोधन करने और API के साथ एकीकृत करने की आवश्यकता होती है, जिसमें मोबाइल और वेब प्लेटफार्म शामिल हैं। कोड पैच उत्पन्न करने के अलावा, मॉडल को प्रतिस्पर्धी प्रस्तावों की समीक्षा और चयन करने की भी आवश्यकता होती है। तकनीकी और प्रबंधन कौशल पर यह दोहरी ध्यान सॉफ़्टवेयर इंजीनियर की वास्तविक जिम्मेदारियों को दर्शाता है। इसके अलावा, शामिल उपयोगकर्ता उपकरण वास्तविक उपयोगकर्ता इंटरैक्शन का अनुकरण करते हैं, जिससे मूल्यांकन और बढ़ता है, और पुनरावृत्त डिबगिंग और समायोजन को प्रोत्साहित करता है।

सWE-Lancer के परिणामों के माध्यम से, शोधकर्ता सॉफ़्टवेयर इंजीनियरिंग के क्षेत्र में वर्तमान भाषा मॉडलों की क्षमताओं की गहराई से समझ प्राप्त कर सकते हैं। व्यक्तिगत योगदान कार्यों में, GPT-4o और Claude3.5Sonnet जैसे मॉडलों की उत्तीर्ण दर क्रमशः 8.0% और 26.2% थी। जबकि प्रबंधन कार्यों में, सबसे अच्छा प्रदर्शन करने वाले मॉडल ने 44.9% की उत्तीर्ण दर प्राप्त की। ये आंकड़े दर्शाते हैं कि हालाँकि अत्याधुनिक मॉडल आशाजनक समाधान प्रदान कर सकते हैं, फिर भी सुधार की काफी गुंजाइश है।

पेपर: https://arxiv.org/abs/2502.12115

मुख्य बिंदु:
💡 ** नवोन्मेषी मूल्यांकन विधि **: SWE-Lancer बेंचमार्क वास्तविक स्वतंत्र कार्यों के माध्यम से अधिक वास्तविकता-आधारित मॉडल प्रदर्शन मूल्यांकन प्रदान करता है।
📈 ** बहुआयामी परीक्षण **: यूनिट परीक्षण के बजाय अंत-से-अंत परीक्षण का उपयोग करके सॉफ़्टवेयर इंजीनियरों के वास्तविक कार्यों की जटिलता को बेहतर ढंग से दर्शाता है।
🚀 ** सुधार की क्षमता **: मौजूदा मॉडल उत्कृष्ट प्रदर्शन करते हैं, लेकिन अधिक प्रयास और कंप्यूटिंग संसाधनों के माध्यम से सुधार की संभावना है।

AI समाचार

AIbase基地

संबंधित AI समाचार अनुशंसाएँ

CoreWeave और OpenAI ने 119 अरब डॉलर के AI इन्फ्रास्ट्रक्चर समझौते पर हस्ताक्षर किए, गहरे सहयोग को बढ़ाया

OpenAI और CoreWeave ने 119 अरब डॉलर के अनुबंध पर किया करार

मस्क के पास OpenAI के मुनाफ़े वाले बदलाव को रोकने का अभी भी मौका हो सकता है