zh
红薯智语
每月不到10元,就可以无限制地访问最好的AIbase。立即成为会员
首页
AI资讯
AI日报
变现指南
AI教程
AI工具导航
AI产品库
zh
红薯智语
搜索全球AI产品动态
搜索全球AI信息,发现AI新机遇
新闻资讯
产品应用
变现案例
AI教程
类型 :
新闻资讯
产品应用
变现案例
AI教程
2023-12-25 14:12:47
.
AIbase
.
4.5k
智源研究院发布代码生成训练数据集 TACO
["智源研究院发布了名为 TACO 的代码生成训练数据集,旨在为代码生成模型提供更具挑战性的训练数据和评测基准。","TACO 在数据规模、质量和评测方案上具有优势,包括更大规模的训练集和测试集,多样化的解题答案,以及细粒度的标签。","实验结果显示,当前流行的代码生成模型在 TACO 评测中与 GPT-4 存在显著差异,说明该领域仍有提升空间。","TACO 不仅是一个挑战性的测试方法,还可用作改进模型性能的训练数据,促进代码生成领域的发展。"]
2023-12-12 16:20:29
.
AIbase
.
4.1k
智谱 AI 发布中文 LLM 对齐评测基准 AlignBench
["智谱 AI 发布了针对中文大模型的评测基准 AlignBench","AlignBench 能够在多维度上细致评测模型和人类意图的对齐水平","数据集分为 8 个大类,包括知识问答、写作生成、角色扮演等多种类型的问题","开发者可以利用 AlignBench 进行评测,并使用评价能力较强的打分模型进行评分","通过登录 AlignBench 网站,提交结果可以使用 CritiqueLLM 作为评分模型进行评测"]
2023-11-02 15:21:41
.
AIbase
.
2.8k
蚂蚁集团发布面向 DevOps 领域的大模型评测基准
["蚂蚁集团联合北京大学发布面向 DevOps 领域的大语言模型评测基准","评测基准包含计划、编码、构建、测试、发布等 8 个类别的选择题","共计 4850 道题目","基准还针对 AIOps 任务做了细分","评测结果显示各模型得分相差不大"]
2023-08-29 10:09:08
.
AIbase
.
887
8 月榜单!SuperCLUE 中文大模型评测基准最新排名发布
["SuperCLUE 发布了中文大模型 8 月榜单,共有 5 个排行榜","评测选取了 16 个通用大语言模型,使用了 3337 道全新的测试题","国内大模型在中文任务上的表现与 GPT3.5 的差距在缩小"]