AI製品ランキング

AI製品ランキング

グローバルAI製品の動向を検索

グローバルAI情報を検索して、AIの新しい機会を発見

ニュース
製品アプリケーション
マネタイズ事例
AIチュートリアル

タイプ :

ニュース
製品アプリケーション
マネタイズ事例
AIチュートリアル

2024-12-05 14:45:53.AIbase

バイトダンスが新たなコード大規模言語モデル評価ベンチマーク「FullStack Bench」をオープンソース化

12月5日、バイトダンスの豆包大規模言語モデルチームは、最新のコード大規模言語モデル評価ベンチマーク「FullStack Bench」を発表しました。これは11種類以上の現実的なシナリオを網羅し、16種類のプログラミング言語をサポート、3374個の問題を含んでいます。このベンチマークは、従来の評価基準と比べて、より広範なプログラミング分野で、大規模言語モデルのコード開発能力をより正確に評価でき、現実世界のプログラミングタスクにおけるモデルの最適化を促進します。HumanEvalやMBPPなど、現在主流のコード評価ベンチマークは、通常、基礎と高度なレベルに集中しています。

バイトダンスが新たなコード大規模言語モデル評価ベンチマーク「FullStack Bench」をオープンソース化