AI产品榜

AI产品榜

搜索全球AI产品动态

搜索全球AI信息，发现AI新机遇

新闻资讯
产品应用
变现案例
AI教程

类型 :

新闻资讯
产品应用
变现案例
AI教程

2024-12-05 14:45:53.AIbase

字节开源全新代码大模型评估基准“FullStack Bench”

12月5日，字节豆包大模型团队推出了最新的代码大模型评估基准——FullStack Bench，涵盖了超11类真实场景，支持16种编程语言，并包含3374个问题。这一基准相比之前的评估标准，在更广泛的编程领域中能更准确地评估大模型的代码开发能力，推动了模型在现实世界编程任务中的优化。目前的主流代码评估基准，如HumanEval和MBPP，通常集中在基础和高级编程问题，而DS-1000则专注于数据分析和机器学习任务，且仅支持Python。xCodeEval则侧重于高级编程和数学领域，存在较大的应用场景和语言覆盖限

字节开源全新代码大模型评估基准“FullStack Bench”