SWE-bench सत्यापित
AI मॉडल सॉफ्टवेयर इंजीनियरिंग क्षमता मूल्यांकन उपकरण
प्रीमियम नया उत्पादप्रोग्रामिंगAI मूल्यांकनसॉफ्टवेयर इंजीनियरिंग
SWE-bench सत्यापित OpenAI द्वारा जारी किया गया एक मानव-सत्यापित SWE-bench उपसमुच्चय है, जिसका उद्देश्य वास्तविक दुनिया की सॉफ्टवेयर समस्याओं को हल करने की AI मॉडल की क्षमता का अधिक विश्वसनीय मूल्यांकन करना है। यह कोड लाइब्रेरी और समस्या विवरण प्रदान करके, AI द्वारा वर्णित समस्याओं के समाधान के लिए पैच उत्पन्न करने की चुनौती देता है। इस उपकरण का विकास मॉडल की स्वायत्तता से सॉफ्टवेयर इंजीनियरिंग कार्यों को पूरा करने की क्षमता के मूल्यांकन की शुद्धता में सुधार के लिए किया गया है, जो OpenAI तैयारी ढांचे में मध्यम जोखिम स्तर का एक महत्वपूर्ण घटक है।
SWE-bench सत्यापित नवीनतम ट्रैफ़िक स्थिति
मासिक कुल विज़िट
505000892
बाउंस दर
59.23%
प्रति विज़िट औसत पृष्ठ
2.2
औसत विज़िट अवधि
00:01:47