SWE-bench सत्यापित

AI मॉडल सॉफ्टवेयर इंजीनियरिंग क्षमता मूल्यांकन उपकरण

प्रीमियम नया उत्पादप्रोग्रामिंगAI मूल्यांकनसॉफ्टवेयर इंजीनियरिंग
SWE-bench सत्यापित OpenAI द्वारा जारी किया गया एक मानव-सत्यापित SWE-bench उपसमुच्चय है, जिसका उद्देश्य वास्तविक दुनिया की सॉफ्टवेयर समस्याओं को हल करने की AI मॉडल की क्षमता का अधिक विश्वसनीय मूल्यांकन करना है। यह कोड लाइब्रेरी और समस्या विवरण प्रदान करके, AI द्वारा वर्णित समस्याओं के समाधान के लिए पैच उत्पन्न करने की चुनौती देता है। इस उपकरण का विकास मॉडल की स्वायत्तता से सॉफ्टवेयर इंजीनियरिंग कार्यों को पूरा करने की क्षमता के मूल्यांकन की शुद्धता में सुधार के लिए किया गया है, जो OpenAI तैयारी ढांचे में मध्यम जोखिम स्तर का एक महत्वपूर्ण घटक है।
वेबसाइट खोलें

SWE-bench सत्यापित नवीनतम ट्रैफ़िक स्थिति

मासिक कुल विज़िट

505000892

बाउंस दर

59.23%

प्रति विज़िट औसत पृष्ठ

2.2

औसत विज़िट अवधि

00:01:47

SWE-bench सत्यापित विज़िट प्रवृत्ति

SWE-bench सत्यापित विज़िट भौगोलिक वितरण

SWE-bench सत्यापित ट्रैफ़िक स्रोत

SWE-bench सत्यापित विकल्प