12月5日、バイトダンスの豆包大規模言語モデルチームは、最新のコード大規模言語モデル評価基準であるFullStack Benchを発表しました。これは11種類以上の現実的なシナリオを網羅し、16種類のプログラミング言語をサポートし、3374個の問題を含んでいます。この基準は以前の評価基準と比べて、より広範なプログラミング分野で、大規模言語モデルのコード開発能力をより正確に評価でき、現実世界のプログラミングタスクにおけるモデルの最適化を促進します。
HumanEvalやMBPPなどの現在主流のコード評価基準は、通常、基礎的なプログラミング問題と高度なプログラミング問題に集中しており、DS-1000はデータ分析と機械学習タスクに特化しており、Pythonのみをサポートしています。xCodeEvalは高度なプログラミングと数学分野に重点を置いており、適用範囲と言語のカバー範囲に大きな制限があります。これに対して、FullStack Benchはデータカバレッジが大幅に向上しており、11種類を超えるアプリケーション分野を網羅し、より複雑で多様なプログラミングシナリオが含まれています。
FullStack Benchのデータセットは、世界最大のプログラミングQ&AプラットフォームであるStack Overflowから取得されています。研究チームは50万件の問題の中から上位88.1%のアプリケーション分野を選び出し、データセットの広範さと堅牢性を確保しました。各問題には、詳細な問題の説明、参照ソリューション、および単体テストケースが含まれており、評価の正確性が確保されています。また、AIと人間のレビューによるクロスチェックを行い、データの信頼性をさらに高めました。
開発者がこのデータセットを簡単に使用できるように、バイトダンスの豆包チームはコードサンドボックスツールであるSandboxFusionもオープンソース化しました。これは、多言語プログラミングタスクの効率的な実行をサポートします。SandboxFusionは10種類以上の広く使用されているコード評価データセットと互換性があり、23種類のプログラミング言語をサポートしており、開発者がさまざまな環境で簡単に大規模言語モデルのテストを行うことができます。
さらに、バイトダンスの豆包大規模言語モデルチームは、自社開発のコード大規模言語モデルであるDoubao-Coderを初めて公開し、世界中の20種類以上のコード大規模言語モデルのプログラミング能力を評価しました。バイトダンスのAIプログラミング分野における継続的な進歩、特に自社開発のコード基盤モデルであるMarsCodeは、毎月ユーザーに百万規模のコードを提供しており、この分野におけるリーダーシップを示しています。
データセットのオープンソースアドレス: https://huggingface.co/datasets/ByteDance/FullStackBench
サンドボックスのオープンソースアドレス: https://github.com/bytedance/SandboxFusion