AI产品榜

AI产品榜

搜索全球AI产品动态

搜索全球AI信息，发现AI新机遇

新闻资讯
产品应用
变现案例
AI教程

类型 :

新闻资讯
产品应用
变现案例
AI教程

2023-12-25 14:12:47.AIbase

智源研究院发布代码生成训练数据集 TACO

["智源研究院发布了名为 TACO 的代码生成训练数据集，旨在为代码生成模型提供更具挑战性的训练数据和评测基准。","TACO 在数据规模、质量和评测方案上具有优势，包括更大规模的训练集和测试集，多样化的解题答案，以及细粒度的标签。","实验结果显示，当前流行的代码生成模型在 TACO 评测中与 GPT-4 存在显著差异，说明该领域仍有提升空间。","TACO 不仅是一个挑战性的测试方法，还可用作改进模型性能的训练数据，促进代码生成领域的发展。"]

2023-12-12 16:20:29.AIbase

智谱 AI 发布中文 LLM 对齐评测基准 AlignBench

["智谱 AI 发布了针对中文大模型的评测基准 AlignBench","AlignBench 能够在多维度上细致评测模型和人类意图的对齐水平","数据集分为 8 个大类，包括知识问答、写作生成、角色扮演等多种类型的问题","开发者可以利用 AlignBench 进行评测，并使用评价能力较强的打分模型进行评分","通过登录 AlignBench 网站，提交结果可以使用 CritiqueLLM 作为评分模型进行评测"]

2023-11-02 15:21:41.AIbase

蚂蚁集团发布面向 DevOps 领域的大模型评测基准

["蚂蚁集团联合北京大学发布面向 DevOps 领域的大语言模型评测基准","评测基准包含计划、编码、构建、测试、发布等 8 个类别的选择题","共计 4850 道题目","基准还针对 AIOps 任务做了细分","评测结果显示各模型得分相差不大"]

2023-08-29 10:09:08.AIbase

8 月榜单！SuperCLUE 中文大模型评测基准最新排名发布

["SuperCLUE 发布了中文大模型 8 月榜单，共有 5 个排行榜","评测选取了 16 个通用大语言模型，使用了 3337 道全新的测试题","国内大模型在中文任务上的表现与 GPT3.5 的差距在缩小"]