12月5日,字节豆包大模型团队推出了最新的代码大模型评估基准——FullStack Bench,涵盖了超11类真实场景,支持16种编程语言,并包含3374个问题。这一基准相比之前的评估标准,在更广泛的编程领域中能更准确地评估大模型的代码开发能力,推动了模型在现实世界编程任务中的优化。目前的主流代码评估基准,如HumanEval和MBPP,通常集中在基础和高级编程问题,而DS-1000则专注于数据分析和机器学习任务,且仅支持Python。xCodeEval则侧重于高级编程和数学领域,存在较大的应用场景和语言覆盖限
["蚂蚁集团旗下CodeFuse代码大模型开源ModelCache大模型语义缓存","ModelCache架构包括adapter、embedding、similarity和data_manager模块","ModelCache可降低大型模型应用的推理成本,提升用户体验","命中缓存可将平均耗时降低10倍,提速率可达14.5%","ModelCache将继续优化性能和精度,提升召回时间和准确率"]
["DeepSeek(深度求索)发布了开源代码大模型 DeepSeek Coder","DeepSeek Coder 是一个智能代码助手,可以生成各种代码","DeepSeek Coder 已经在 Hugging Face 和 GitHub 上开源","DeepSeek Coder 在国际权威数据集的测试中表现出色","DeepSeek 致力于探索 AGI 的本质,将推出更多研究成果"]
["蚂蚁集团发布了 CodeFuse-CodeLlama-34B 的 4bits 量化版本","量化后的模型可用单张 A10 或 RTX4090 加载","量化后的模型在 Humaneval pass@1 指标上达到 73.8% 的表现","CodeFuse 是蚂蚁自研的代码生成专属大模型","通过提供智能建议和实时支持,提升开发者的研发效率"]