SWE-bench Verified
Outil d'évaluation des capacités d'ingénierie logicielle des modèles d'IA
Nouveau Produit PremiumProgrammationÉvaluation IAIngénierie logicielle
SWE-bench Verified est un sous-ensemble de SWE-bench publié par OpenAI et vérifié manuellement. Il vise à évaluer de manière plus fiable la capacité des modèles d'IA à résoudre des problèmes logiciels réels. Il propose un référentiel de code et une description des problèmes, contestant l'IA à générer des correctifs pour résoudre les problèmes décrits. Développé pour améliorer la précision de l'évaluation de la capacité des modèles à accomplir de manière autonome des tâches d'ingénierie logicielle, il constitue un élément clé de niveau de risque moyen dans le cadre de préparation d'OpenAI.
SWE-bench Verified Dernière situation du trafic
Nombre total de visites mensuelles
505000892
Taux de rebond
59.23%
Nombre moyen de pages par visite
2.2
Durée moyenne de la visite
00:01:47