OpenAIは先日、AIによるプログラミング能力を評価する重要なレポートを発表しました。100万ドル規模の実際の開発プロジェクトを通じて、AIがソフトウェア開発分野でどの程度の実力を持っているかを明らかにしています。SWE-Lancerと名付けられたこのベンチマークテストは、Upworkから集めた1400件の実プロジェクトを対象に、AIによる直接的な開発とプロジェクト管理の両分野におけるパフォーマンスを包括的に評価しました。

テストの結果、最も優れたパフォーマンスを示したAIモデルであるClaude3.5 Sonnetは、コーディングタスクでの成功率が26.2%、プロジェクト管理における意思決定では44.9%に達しました。これは人間の開発者にはまだ及ばないものの、経済的な効果においては大きな可能性を示しています。

データによると、公開されているDiamondデータセットだけで、このモデルは20万8050ドル相当のプロジェクト開発作業を完了することができました。完全なデータセットに拡張した場合、AIは40万ドルを超える価値のタスクを処理できると期待されます。

QQ20250220-103559.png

しかし、この研究は、複雑な開発タスクにおけるAIの明らかな限界も明らかにしました。AIは単純なバグ修正(冗長なAPI呼び出しの修正など)はこなせますが、深い理解と包括的な解決策が必要な複雑なプロジェクト(クロスプラットフォームの動画再生機能開発など)には対応が不十分です。特に注目すべきは、AIは問題のあるコードを特定できるものの、根本原因を理解し、包括的な解決策を提供することが難しい点です。

この分野の研究開発を促進するため、OpenAIはGitHub上でSWE-Lancer Diamondデータセットと関連ツールをオープンソース化しました。これにより、研究者は統一された基準に基づいて様々なプログラミングモデルのパフォーマンスを評価できるようになります。この取り組みは、AIのプログラミング能力の更なる向上に重要な参考となるでしょう。