OpenAI ने हाल ही में एक महत्वपूर्ण AI प्रोग्रामिंग क्षमता मूल्यांकन रिपोर्ट जारी की है, जिसने $1 मिलियन के वास्तविक विकास परियोजना के माध्यम से सॉफ़्टवेयर विकास के क्षेत्र में AI की स्थिति को उजागर किया है। इस बेंचमार्क टेस्ट का नाम SWE-Lancer है, जिसमें Upwork से 1,400 वास्तविक परियोजनाओं को शामिल किया गया है, जो सीधे विकास और परियोजना प्रबंधन के दो प्रमुख क्षेत्रों में AI के प्रदर्शन का समग्र मूल्यांकन करता है।

परीक्षण परिणामों से पता चलता है कि सबसे अच्छे प्रदर्शन करने वाले AI मॉडल Claude3.5Sonnet ने कोडिंग कार्यों में 26.2% की सफलता दर हासिल की है, जबकि परियोजना प्रबंधन निर्णयों में 44.9% तक पहुंच गया है। हालांकि यह उपलब्धि मानव डेवलपर्स के मुकाबले कम है, लेकिन आर्थिक लाभ के मामले में यह काफी संभावनाएं दिखा रहा है।

डेटा से पता चलता है कि केवल सार्वजनिक Diamond डेटा सेट में, यह मॉडल $208,050 की परियोजना विकास कार्य को पूरा कर सकता है। यदि इसे पूर्ण डेटा सेट पर विस्तारित किया जाए, तो AI $400,000 से अधिक मूल्य के कार्यों को संभालने की उम्मीद है।

QQ20250220-103559.png

हालांकि, शोध ने जटिल विकास कार्यों में AI की स्पष्ट सीमाओं को भी उजागर किया है। जबकि AI सरल त्रुटि सुधार कार्य (जैसे अतिरिक्त API कॉल को ठीक करना) में सक्षम है, लेकिन जब जटिल परियोजनाओं का सामना करना पड़ता है, जिन्हें गहन समझ और समग्र समाधान की आवश्यकता होती है (जैसे क्रॉस-प्लेटफ़ॉर्म वीडियो प्लेबैक फ़ीचर विकास), तो इसका प्रदर्शन कमजोर होता है। विशेष रूप से ध्यान देने योग्य बात यह है कि AI अक्सर समस्या कोड की पहचान कर सकता है, लेकिन इसके मूल कारण को समझना और समग्र समाधान प्रदान करना कठिन होता है।

इस क्षेत्र में शोध विकास को बढ़ावा देने के लिए, OpenAI ने GitHub पर SWE-Lancer Diamond डेटा सेट और संबंधित उपकरणों को ओपन-सोर्स किया है, जिससे शोधकर्ता विभिन्न प्रोग्रामिंग मॉडलों के प्रदर्शन का एक समान मानक के आधार पर मूल्यांकन कर सकें। यह कदम AI प्रोग्रामिंग क्षमताओं के आगे के विकास के लिए महत्वपूर्ण संदर्भ प्रदान करेगा।