SWE-bench Verified
AIモデルのソフトウェアエンジニアリング能力評価ツール
プレミアム新製品プログラミングAI評価ソフトウェアエンジニアリング
SWE-bench Verifiedは、OpenAIが公開した、人間による検証済みのSWE-benchサブセットです。現実世界のソフトウェア問題に対するAIモデルの解決能力をより信頼性高く評価することを目的としています。コードリポジトリと問題の説明を提供することで、AIが記述された問題に対する修正プログラムを生成するよう促します。このツールは、モデルがソフトウェアエンジニアリングタスクを自律的に実行する能力の評価精度を高めるために開発され、OpenAI準備フレームワークの中リスクレベルの重要な構成要素です。
SWE-bench Verified 最新のトラフィック状況
月間総訪問数
505000892
直帰率
59.23%
平均ページ/訪問
2.2
平均訪問時間
00:01:47