हाल ही में, OpenAI के शोधकर्ताओं ने एक नए प्रकाशित पेपर में स्वीकार किया है कि हाल के AI तकनीकें काफी उन्नत होने के बावजूद, ये मॉडल अभी भी मानव प्रोग्रामरों के साथ प्रतिस्पर्धा नहीं कर सकते। OpenAI के CEO सैम अल्टमैन ने कहा था कि इस साल के अंत तक, AI "निम्न" सॉफ्टवेयर इंजीनियरों को हरा सकेगा, लेकिन शोध परिणाम बताते हैं कि इन AI मॉडलों को अभी भी महत्वपूर्ण चुनौतियों का सामना करना पड़ रहा है।
चित्र स्रोत टिप्पणी: चित्र AI द्वारा उत्पन्न, चित्र प्राधिकरण सेवा प्रदाता Midjourney
शोध में, OpenAI टीम ने SWE-Lancer नामक एक नए बेंचमार्क परीक्षण का उपयोग किया, जिसने फ्रीलांसिंग वेबसाइट Upwork से निकाली गई 1400 से अधिक सॉफ्टवेयर इंजीनियरिंग कार्यों के प्रदर्शन का मूल्यांकन किया। इस परीक्षण ने तीन बड़े भाषा मॉडलों (LLM) की कोडिंग क्षमताओं पर ध्यान केंद्रित किया, जिसमें OpenAI का o1 तर्क मॉडल, प्रमुख उत्पाद GPT-4o और Anthropic का Claude3.5Sonnet शामिल हैं।
इन मॉडलों को दो प्रकार के कार्य पूरे करने के लिए कहा गया: एकल कार्य, जो मुख्य रूप से प्रोग्राम में त्रुटियों को ठीक करने पर केंद्रित है; और प्रबंधन कार्य, जिसमें मॉडल को उच्च स्तर के निर्णय लेने की आवश्यकता थी। परीक्षण के दौरान, इन मॉडलों को इंटरनेट तक पहुंच नहीं थी, जिसका मतलब है कि वे सीधे ऑनलाइन उत्तर नहीं खोज सकते थे।
हालांकि इन मॉडलों द्वारा किए गए कार्यों का कुल मूल्य लाखों डॉलर तक पहुंचता है, लेकिन वे केवल सतही समस्याओं को ही ठीक कर सकते हैं और जटिल परियोजनाओं में गहरे स्तर की त्रुटियों और मूल कारणों को ढूंढने में कठिनाई होती है। यह स्थिति AI के उपयोग के अनुभव की याद दिलाती है: AI तेजी से सही जानकारी उत्पन्न कर सकता है, लेकिन अक्सर गहरे परीक्षण में अपनी सीमाओं को उजागर करता है।
पेपर में कहा गया है कि जबकि ये तीन LLM कार्यों को पूरा करने की गति में मानवों से कहीं आगे हैं, लेकिन वे अक्सर त्रुटियों की व्यापकता और संदर्भ को पूरी तरह से समझने में असफल रहते हैं, जिससे उनके द्वारा दिए गए समाधान अक्सर सटीक या समग्र नहीं होते। शोधकर्ताओं ने बताया कि Claude3.5Sonnet का प्रदर्शन OpenAI के दोनों मॉडलों से बेहतर है, और प्राप्त लाभ भी अधिक है, लेकिन इसके उत्तरों की सटीकता अभी भी विश्वसनीय स्तर पर नहीं पहुंची है।
शोध से पता चलता है कि हालांकि ये उन्नत AI मॉडल कुछ विशिष्ट कार्यों में तेजी से काम कर सकते हैं, लेकिन वे समग्र सॉफ्टवेयर इंजीनियरिंग क्षमताओं में अभी भी अपर्याप्त हैं, और मानव प्रोग्रामरों का स्थान लेने के स्तर तक नहीं पहुंचे हैं। हालांकि, यह कुछ कंपनियों को मानव प्रोग्रामरों को अभी भी अपरिपक्व AI मॉडलों से बदलने से नहीं रोकता।
मुख्य बिंदु:
🧑💻 OpenAI के शोध से पता चलता है कि उन्नत AI मॉडल कोडिंग क्षमताओं में मानव प्रोग्रामरों से पीछे हैं।
🚫 तीन AI मॉडलों ने कोडिंग त्रुटियों को ठीक करने में खराब प्रदर्शन किया, जटिल समस्याओं को हल करने में कठिनाई।
🔍 हालाँकि AI की गति तेज है, लेकिन उनकी समग्र समझ की कमी के कारण समाधान की सटीकता अपर्याप्त है।