OpenAIは8月13日、AIモデルのソフトウェアエンジニアリングタスクにおける性能をより正確に評価することを目的とした、SWE-bench Verifiedコード生成評価ベンチマークを発表しました。この新しいベンチマークは、以前のSWE-benchが抱えていたいくつかの課題を解決しています。

SWE-benchは、GitHub上の実際のソフトウェア問題に基づいた評価データセットで、12の人気のあるPythonリポジトリから2294個のIssue-Pull Requestペアが含まれています。しかし、元のSWE-benchには3つの主要な問題がありました。ユニットテストが厳しすぎるため正しい解決策が拒否される可能性があること、問題の説明が不明確であること、開発環境の設定が信頼性に欠けることです。

QQ截图20240815145302.png

これらの問題を解決するために、SWE-bench Verifiedは、コンテナ化されたDocker環境による新しい評価ツールキットを導入し、評価プロセスをより一貫性があり信頼性の高いものにしました。この改善により、AIモデルの性能評価スコアが大幅に向上しました。例えば、GPT-4oは新しいベンチマークで33.2%のサンプルを解決し、最高の性能を示したオープンソースのエージェントフレームワークであるAgentlessのスコアも2倍の16%に増加しました。

この性能向上は、SWE-bench VerifiedがAIモデルのソフトウェアエンジニアリングタスクにおける真の能力をより適切に捉えていることを示しています。元のベンチマークの限界を克服することで、OpenAIはソフトウェア開発分野におけるAIの応用のためのより正確な評価ツールを提供し、関連技術の更なる発展と応用を促進すると期待されています。

ソフトウェアエンジニアリングにおけるAI技術の応用がますます広がるにつれて、SWE-bench Verifiedのような評価ベンチマークは、AIモデルの能力向上を測定し促進する上で重要な役割を果たすでしょう。

アドレス:https://openai.com/index/introducing-swe-bench-verified/