SWE-bench Verified

AIモデルのソフトウェアエンジニアリング能力評価ツール

プレミアム新製品プログラミングAI評価ソフトウェアエンジニアリング
SWE-bench Verifiedは、OpenAIが公開した、人間による検証済みのSWE-benchサブセットです。現実世界のソフトウェア問題に対するAIモデルの解決能力をより信頼性高く評価することを目的としています。コードリポジトリと問題の説明を提供することで、AIが記述された問題に対する修正プログラムを生成するよう促します。このツールは、モデルがソフトウェアエンジニアリングタスクを自律的に実行する能力の評価精度を高めるために開発され、OpenAI準備フレームワークの中リスクレベルの重要な構成要素です。
ウェブサイトを開く

SWE-bench Verified 最新のトラフィック状況

月間総訪問数

505000892

直帰率

59.23%

平均ページ/訪問

2.2

平均訪問時間

00:01:47

SWE-bench Verified 訪問数の傾向

SWE-bench Verified 訪問地理的分布

SWE-bench Verified トラフィックソース

SWE-bench Verified 代替品