SWE-bench Verified

Outil d'évaluation des capacités d'ingénierie logicielle des modèles d'IA

Nouveau Produit PremiumProgrammationÉvaluation IAIngénierie logicielle
SWE-bench Verified est un sous-ensemble de SWE-bench publié par OpenAI et vérifié manuellement. Il vise à évaluer de manière plus fiable la capacité des modèles d'IA à résoudre des problèmes logiciels réels. Il propose un référentiel de code et une description des problèmes, contestant l'IA à générer des correctifs pour résoudre les problèmes décrits. Développé pour améliorer la précision de l'évaluation de la capacité des modèles à accomplir de manière autonome des tâches d'ingénierie logicielle, il constitue un élément clé de niveau de risque moyen dans le cadre de préparation d'OpenAI.
Ouvrir le site Web

SWE-bench Verified Dernière situation du trafic

Nombre total de visites mensuelles

505000892

Taux de rebond

59.23%

Nombre moyen de pages par visite

2.2

Durée moyenne de la visite

00:01:47

SWE-bench Verified Tendance des visites

SWE-bench Verified Distribution géographique des visites

SWE-bench Verified Sources de trafic

SWE-bench Verified Alternatives