zh
AI产品榜
每月不到10元,就可以无限制地访问最好的AIbase。立即成为会员
首页
AI资讯
AI日报
变现指南
AI教程
AI工具导航
AI产品库
zh
AI产品榜
搜索全球AI产品动态
搜索全球AI信息,发现AI新机遇
新闻资讯
产品应用
变现案例
AI教程
类型 :
新闻资讯
产品应用
变现案例
AI教程
2024-08-13 08:11:01
.
AIbase
.
11.0k
大模型评测平台Compass Arena新增多模态大模型竞技版块
上海人工智能实验室的司南 OpenCompass 团队与魔搭 ModelScope 合作,推出了 Compass Multi-Modal Arena,这是一个大模型评测平台的新版块,专注于多模态大模型。用户可通过上传图像并输入问题,让两个匿名多模态大模型生成答案,然后基于生成内容的质量进行主观评估,选择表现更佳的模型。平台提供简单易用的界面和特色题库,题库侧重于主观视觉问答任务,如迷因理解、艺术品赏析和摄影作品赏析。此平台旨在评估多模态大模型在主观任务上的性能和用户体验,并已向公众开放。
2023-11-29 09:08:23
.
AIbase
.
3.6k
“百模大战”家家第一,大模型“跑分”作弊何时休?
["📊 <b>大模型的评测体系</b>:当前的大模型评测体系存在开源数据集可刷题、封闭评测数据集引发公平性问题以及评测指标不够科学全面等问题。","💡 <b>大模型的应用趋势</b>:文章提到大模型已经从模型端发展到应用端创新。","🔎 <b>大模型的商业化问题</b>:对大模型团队来说,是否能实现商业化远比排名和参数更重要。"]
2023-11-02 15:21:41
.
AIbase
.
2.8k
蚂蚁集团发布面向 DevOps 领域的大模型评测基准
["蚂蚁集团联合北京大学发布面向 DevOps 领域的大语言模型评测基准","评测基准包含计划、编码、构建、测试、发布等 8 个类别的选择题","共计 4850 道题目","基准还针对 AIOps 任务做了细分","评测结果显示各模型得分相差不大"]
2023-09-25 09:54:21
.
AIbase
.
1.6k
大模型评测乱象调查:参数规模不代表一切
["参数量不是评判大模型的唯一标准,评测集的不同会导致排名差异巨大","主观题比例上升也会影响排名,评测公正性容易受质疑","OpenCompass和FlagEval等第三方评测机构开始受关注","学界认为还应考量模型鲁棒性、安全性等多维度","真正全面有效的评测方式仍在探索中"]
2023-08-29 10:09:08
.
AIbase
.
887
8 月榜单!SuperCLUE 中文大模型评测基准最新排名发布
["SuperCLUE 发布了中文大模型 8 月榜单,共有 5 个排行榜","评测选取了 16 个通用大语言模型,使用了 3337 道全新的测试题","国内大模型在中文任务上的表现与 GPT3.5 的差距在缩小"]