AIニュース

世界のAIイノベーションの瞬間をお見逃しなく

AIデイリー

毎日の3分AI業界トレンド

AIタイムライン

AI業界のマイルストーン

Alハードウェアです

すべてのAIハードウェアをリストアップします。

AIマネタイズガイド

画像コレクション

AI画像生成マネタイズ事例

ビデオコレクション

AIビデオ生成マネタイズ事例

オーディオコレクション

AIオーディオ生成マネタイズ事例

コンテンツコレクション

AIコンテンツ作成マネタイズ事例

AIチュートリアル

AIプロダクトランキング

AIウェブサイトの総訪問数ランキングを表示

AIトラフィック成長ランキング

トラフィックによる最も急速に成長しているAIウェブサイトを追跡

AIトラフィック減少ランキング

トラフィックが大幅に減少しているAIウェブサイトに焦点を当てる

AI週間ランキング

AIウェブサイトの週間訪問数ランキングを表示

AIオープンソースプロジェクトライブラリ

概要

GitHubの人気のあるAIオープンソースプロジェクトの概要

プロダクトライブラリツールナビゲーション

バイトダンス、大規模言語モデルコードインテリジェントアップグレード推進のためMulti-SWE-benchをオープンソース化

AIbase基地

公開日AIニュース · 1 分で読めます · Apr 10, 2025

先日、バイトダンスのDoubao大規模言語モデルチームは、業界初の多言語コード修正ベンチマークデータセットであるMulti-SWE-benchをオープンソースとして公開しました。これは、大規模言語モデルによる「バグ自動修正」能力の評価と向上に新たな突破口をもたらします。

大規模言語モデル技術が急速に発展する現在、コード生成タスクはモデルの知能を検証する重要な領域となっています。SWE-benchに代表されるコード修正ベンチマークは、モデルのプログラミング能力を測定できますが、明らかな限界があります。Python言語のみに焦点を当てており、モデルのクロス言語汎化能力を評価できません。また、タスクの難易度が限られており、複雑な開発シナリオを網羅することが難しく、大規模言語モデルのコード知能の更なる発展を阻んでいます。

様々なモデルにおけるコード能力評価スコア

Multi-SWE-benchは、SWE-benchを基に大きな飛躍を遂げました。Java、TypeScript、C、C++、Go、Rust、JavaScriptなど7つの主要プログラミング言語を初めて網羅し、実際のオープンソースリポジトリから取得した1632個の修正タスクを構築しました。これらのタスクは厳格な選別と手動検証を経ており、信頼性の高い品質が保証されています。同時に、Multi-SWE-benchは難易度分類メカニズムを導入し、簡単、中等、困難の3つのレベルに分類することで、様々な能力レベルでのモデルのパフォーマンスをより包括的に評価できます。

このデータセットに基づいた実験によると、現在の巨大言語モデルはPythonの修正ではそこそこ良い結果を示していますが、他の言語を処理する場合の平均修正率は10％未満であり、多言語コード修正が依然として大規模言語モデルが直面する課題であることが明らかになりました。

一部の主要なモデルはPythonにおいてはより優れた性能を示していますが、他の言語ではスコアが低くなっています。また、タスクの難易度が高くなるにつれて、モデルの修正率は徐々に低下する傾向にあります。

強化学習を自動プログラミング分野での応用を強化するために、チームは同時にMulti-SWE-RLもオープンソースとして公開しました。4723個のインスタンスとそれに対応する再現可能なDocker環境を提供し、ワンクリック起動、自動評価などの機能をサポートすることで、強化学習のトレーニングのための標準化されたデータ基盤を構築しました。さらに、チームはオープンソースコミュニティ計画を開始し、開発者や研究者を招いてデータセットの拡張、新しい手法の評価などの作業に参加し、RL for Codeエコシステムの構築を共同で推進します。

バイトダンスのDoubao大規模言語モデルチームは、Multi-SWE-benchが自動プログラミング技術の新たな高みへと進むことを期待しており、今後、その対象範囲を継続的に拡大し、「自動ソフトウェアエンジニアリング」分野における大規模言語モデルの更なる発展に貢献していくとしています。

マルチSWEベンチマーク大豆モデルコード修正基準データセット大規模モデルコード能力評価

この記事はAIbaseデイリーからのものです

【AIデイリー】へようこそ！ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。

—— AIbase デイリーグループによって作成

荣耀スマートフォン、バイトダンスのDoubao大規模言語モデルとの戦略的提携を発表

先日、荣耀スマートフォンとバイトダンス傘下のDoubao大規模言語モデルが提携を発表しました。火山引擎の公式発表によると、Doubao大規模言語モデルファミリーの複数のモデル（音声認識やロールプレイングなど）が、荣耀によるモバイルオフィス分野の垂直モデルアプリケーション構築のための基礎能力サポートを提供します。

Jun 28, 2024

3.2k

AIニュース

AIデイリー

AIタイムライン

Alハードウェアです

最新事例

画像コレクション

ビデオコレクション

オーディオコレクション

コンテンツコレクション

最新チュートリアル

AIプロダクトランキング

AIトラフィック成長ランキング

AIトラフィック減少ランキング

AI週間ランキング

アメリカ合衆国

中国

インド

ブラジル

画像生成

パーソナルアシスタント

キャラクター生成

ビデオ生成

AIプロジェクトランキング

AIプロジェクト成長ランキング

AI開発者ランキング

AI組織ランキング

Deepseek

TTS

LLM

ChatGPT

概要

バイトダンス、大規模言語モデルコードインテリジェントアップグレード推進のためMulti-SWE-benchをオープンソース化

AIbase基地

この記事はAIbaseデイリーからのものです

関連AIニュースの推奨

荣耀スマートフォン、バイトダンスのDoubao大規模言語モデルとの戦略的提携を発表