AI产品榜

AI产品榜

搜索全球AI产品动态

搜索全球AI信息，发现AI新机遇

新闻资讯
产品应用
变现案例
AI教程

类型 :

新闻资讯
产品应用
变现案例
AI教程

2025-01-10 15:49:29.AIbase

智谱GLM-4-9B模型幻觉率仅1.3%，在全球大模型评测中夺魁

在人工智能领域，大语言模型的"幻觉问题"一直是困扰业界的关键挑战。近日，一项基于HHEM-2.1-Open评估体系的测试结果显示，智谱AI旗下的GLM-4-9B模型交出了一份令人瞩目的成绩单。测试数据显示，在参与评估的85个大语言模型中，GLM-4-9B以98.7%的事实一致性率和100%的回答率摘得桂冠。特别值得关注的是，该模型的幻觉率仅为1.3%，这一成绩不仅位居榜首，更是超越了行业巨头OpenAI的GPT系列和Google的Gemini系列模型。图源备注：图片由AI生成，图片授权服务商Midjourney这一突破性成果标志着中国大

智谱GLM-4-9B模型幻觉率仅1.3%，在全球大模型评测中夺魁

2024-12-19 17:47:00.AIbase

大模型评测平台CompassArena升级推出全新 Judge Copilot 功能

上海人工智能实验室司南OpenCompass团队与魔搭ModelScope联合推出的大模型评测平台CompassArena（大模型竞技场）近日迎来了新升级，旨在为用户提供更科学、全面的模型评估体验。自上线以来，该平台吸引了大量社区用户参与并贡献数据，基于这些数据，CompassArena不断优化，此次升级包括全新Judge Copilot功能和榜单算法的改进，以及新增20多个全新模型。

大模型评测平台CompassArena升级推出全新 Judge Copilot 功能

2024-08-13 08:11:01.AIbase

大模型评测平台Compass Arena新增多模态大模型竞技版块

上海人工智能实验室的司南 OpenCompass 团队与魔搭 ModelScope 合作，推出了 Compass Multi-Modal Arena，这是一个大模型评测平台的新版块，专注于多模态大模型。用户可通过上传图像并输入问题，让两个匿名多模态大模型生成答案，然后基于生成内容的质量进行主观评估，选择表现更佳的模型。平台提供简单易用的界面和特色题库，题库侧重于主观视觉问答任务，如迷因理解、艺术品赏析和摄影作品赏析。此平台旨在评估多模态大模型在主观任务上的性能和用户体验，并已向公众开放。

大模型评测平台Compass Arena新增多模态大模型竞技版块

2023-11-29 09:08:23.AIbase

“百模大战”家家第一,大模型“跑分”作弊何时休?

["📊 <b>大模型的评测体系</b>:当前的大模型评测体系存在开源数据集可刷题、封闭评测数据集引发公平性问题以及评测指标不够科学全面等问题。","💡 <b>大模型的应用趋势</b>:文章提到大模型已经从模型端发展到应用端创新。","🔎 <b>大模型的商业化问题</b>:对大模型团队来说,是否能实现商业化远比排名和参数更重要。"]

2023-11-02 15:21:41.AIbase

蚂蚁集团发布面向 DevOps 领域的大模型评测基准

["蚂蚁集团联合北京大学发布面向 DevOps 领域的大语言模型评测基准","评测基准包含计划、编码、构建、测试、发布等 8 个类别的选择题","共计 4850 道题目","基准还针对 AIOps 任务做了细分","评测结果显示各模型得分相差不大"]

2023-09-25 09:54:21.AIbase

大模型评测乱象调查:参数规模不代表一切

["参数量不是评判大模型的唯一标准,评测集的不同会导致排名差异巨大","主观题比例上升也会影响排名,评测公正性容易受质疑","OpenCompass和FlagEval等第三方评测机构开始受关注","学界认为还应考量模型鲁棒性、安全性等多维度","真正全面有效的评测方式仍在探索中"]

2023-08-29 10:09:08.AIbase

8 月榜单！SuperCLUE 中文大模型评测基准最新排名发布

["SuperCLUE 发布了中文大模型 8 月榜单，共有 5 个排行榜","评测选取了 16 个通用大语言模型，使用了 3337 道全新的测试题","国内大模型在中文任务上的表现与 GPT3.5 的差距在缩小"]