先日、バイトダンスのDoubao大規模言語モデルチームは、業界初の多言語コード修正ベンチマークデータセットであるMulti-SWE-benchをオープンソースとして公開しました。これは、大規模言語モデルによる「バグ自動修正」能力の評価と向上に新たな突破口をもたらします。

大規模言語モデル技術が急速に発展する現在、コード生成タスクはモデルの知能を検証する重要な領域となっています。SWE-benchに代表されるコード修正ベンチマークは、モデルのプログラミング能力を測定できますが、明らかな限界があります。Python言語のみに焦点を当てており、モデルのクロス言語汎化能力を評価できません。また、タスクの難易度が限られており、複雑な開発シナリオを網羅することが難しく、大規模言語モデルのコード知能の更なる発展を阻んでいます。

QQ20250410-143403.png

様々なモデルにおけるコード能力評価スコア

Multi-SWE-benchは、SWE-benchを基に大きな飛躍を遂げました。Java、TypeScript、C、C++、Go、Rust、JavaScriptなど7つの主要プログラミング言語を初めて網羅し、実際のオープンソースリポジトリから取得した1632個の修正タスクを構築しました。これらのタスクは厳格な選別と手動検証を経ており、信頼性の高い品質が保証されています。同時に、Multi-SWE-benchは難易度分類メカニズムを導入し、簡単、中等、困難の3つのレベルに分類することで、様々な能力レベルでのモデルのパフォーマンスをより包括的に評価できます。

このデータセットに基づいた実験によると、現在の巨大言語モデルはPythonの修正ではそこそこ良い結果を示していますが、他の言語を処理する場合の平均修正率は10%未満であり、多言語コード修正が依然として大規模言語モデルが直面する課題であることが明らかになりました。

QQ20250410-143412.png

一部の主要なモデルはPythonにおいてはより優れた性能を示していますが、他の言語ではスコアが低くなっています。また、タスクの難易度が高くなるにつれて、モデルの修正率は徐々に低下する傾向にあります。

強化学習を自動プログラミング分野での応用を強化するために、チームは同時にMulti-SWE-RLもオープンソースとして公開しました。4723個のインスタンスとそれに対応する再現可能なDocker環境を提供し、ワンクリック起動、自動評価などの機能をサポートすることで、強化学習のトレーニングのための標準化されたデータ基盤を構築しました。さらに、チームはオープンソースコミュニティ計画を開始し、開発者や研究者を招いてデータセットの拡張、新しい手法の評価などの作業に参加し、RL for Codeエコシステムの構築を共同で推進します。

バイトダンスのDoubao大規模言語モデルチームは、Multi-SWE-benchが自動プログラミング技術の新たな高みへと進むことを期待しており、今後、その対象範囲を継続的に拡大し、「自動ソフトウェアエンジニアリング」分野における大規模言語モデルの更なる発展に貢献していくとしています。