大模型评测平台CompassArena升级推出全新 Judge Copilot 功能

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Dec 19, 2024

277

上海人工智能实验室司南OpenCompass团队与魔搭ModelScope联合推出的大模型评测平台CompassArena（大模型竞技场）近日迎来了新升级，旨在为用户提供更科学、全面的模型评估体验。自上线以来，该平台吸引了大量社区用户参与并贡献数据，基于这些数据，CompassArena不断优化，此次升级包括全新Judge Copilot功能和榜单算法的改进，以及新增20多个全新模型。

Judge Copilot功能利用强大的评价模型Compass-Judger-1-32B-Instruct，为用户提供全方位对比分析对话模型表现的能力，从多维度评价、实时对比到智能决策辅助，使主观评测更精准、高效。此外，榜单算法进行了全新升级，对原始的Bradley-Terry统计算法进行改进，引入控制变量降低混淆因素的影响，使模型排名更科学、精准。新增的模型涵盖国内外商业模型及开源模型，丰富了对战体验。

微信截图_20241219174613.png

CompassArena高度重视Judge模型在实际应用中的表现，并积极收集用户反馈以进一步提升Judge模型的综合能力和对齐效果。用户可以通过点击“赞”和“踩”按钮来表达他们对Judge模型的评价。通过拟合包含控制变量的Bradley-Terry统计模型，CompassArena能够估计众多外在因素的影响程度，具体影响程度可以通过几率比的形式表达。

此次升级，CompassArena迎来了包括360gpt2-pro、deep-seek-v2.5-chat、doubao-pro-32k-240828等国内商业模型，以及claude-3.5-sonnet-20241022、gemini-exp-1121等国外商业模型和一系列开源模型的加入。新增模型所属机构包括360、DeepSeek、豆包等，为用户提供更丰富的对战选择。

体验地址：https://www.modelscope.cn/studios/opencompass/CompassArena

人工智能 CompassArena JudgeCopilot 模型评测

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

全球首部AI生成电影《海上女王郑一嫂》上映时长70分钟

近日，由新加坡影视制作公司FizzDragon出品的70分钟华语AIGC（人工智能生成内容）电影《海上女王郑一嫂》正式在新加坡院线上映，成为全球首部进入商业院线公映的AI技术长片。该片以18世纪中国传奇女海盗郑一嫂为原型，其人物形象曾启发《加勒比海盗》系列中“清夫人”一角的创作。

2025年4月25号 14:14

4.7k

埃隆・马斯克的 xAI 在孟菲斯引发污染争议

埃隆・马斯克的人工智能公司 xAI 最近在田纳西州孟菲斯引发了争议。这家公司正在该地区建设一台巨大的超级计算机，以支持其业务运营。然而，自从去年夏天超级计算机投入使用以来，社区居民和环保活动家表示，该设施已成为当地主要的空气污染源之一。图源备注：图片由AI生成，图片授权服务商Midjourney针对这一问题，孟菲斯市健康部门已安排于周五举行首次公开听证会，以听取各方意见。在听证会前，一些匿名团体向历史悠久的黑人社区居民发放了声称 xAI 排放量低的宣传单，同时

2025年4月25号 10:40

3.8k

苹果AI战略大调整：继Siri换帅后，神秘机器人团队划归硬件部门

科技巨头苹果公司近期对其人工智能（AI）部门进行了又一次重大调整。据知情人士透露，苹果计划在本月晚些时候将其秘密的机器人技术部门从AI主管约翰·詹南德里亚(John Giannandrea)的管辖范围中剥离，转交给硬件工程高级副总裁约翰·特努斯(John Ternus)领导。这次调整紧随今年三月将表现不佳的Siri语音助手业务从詹南德里亚手中移交之后。一系列变动凸显了苹果正努力追赶在AI领域领先的谷歌和OpenAI等竞争对手。尽管经历了部门调整，前谷歌高管詹南德里亚仍将继续负责苹果大部分的AI核

2025年4月25号 10:37

3.6k

摩托罗拉与 Perplexity AI 携手推出全新智能手机助手

Perplexity AI 宣布与摩托罗拉达成合作，推出其人工智能助手和问答引擎，并将在新一代摩托罗拉智能手机上预装。这项合作被 Perplexity AI 称为与手机品牌之间 “最全面” 的整合之一。这项整合将使 Perplexity 的产品能够在摩托罗拉 Razr 系列手机折叠状态下，通过外部显示屏进行操作。此外，Perplexity 助手不仅可以进行信息检索，还能帮助用户完成餐厅预订等其他任务。用户只需通过 Moto AI 输入 “Ask Perplexity” 即可直接访问 Perplexity 的服务，并通过相关问题探索更多内容。Perplexity AI 表示，此

2025年4月25号 9:46

4.0k

报道称苹果重组管理层，AI 与机器人项目分离

有媒体报道苹果公司对其管理层进行了一次重要的调整，尤其是在人工智能（AI）和机器人项目方面。根据彭博社的消息，苹果的人工智能负责人约翰・贾南德雷亚（John Giannandrea）将不再负责公司秘密的机器人部门，而是将重心放在人工智能的开发上。这一变动标志着苹果在优化内部结构、提升 AI 项目推进效率方面迈出了重要一步。据了解，贾南德雷亚之前同时管理多个项目，包括苹果的人工智能助手 Siri 和机器人团队。但由于苹果在 Siri 的功能交付上未能按时实现目标，导致公司决定对

2025年4月25号 9:05

4.0k

谷歌I/O2025展望:Material3、Android XR与生成式AI重塑开发者体验

在今天上午的谷歌I/O2025会议上，谷歌宣布了一系列令人激动的新技术，进一步展示了其在人工智能、沉浸式体验和开发工具方面的最新进展。以下是我们可以期待的主要亮点:1. Material3Expressive:情感化设计的未来谷歌将在此次大会上推出Material3Expressive，这一全新设计系统被形容为“谷歌用户体验设计的未来”。Material3Expressive注重情感化设计，融合了新的设计模式和指南，旨在提升用户体验、增强参与度，并激发用户的购买欲望。开发者将深入学习如何运用这一设计系统来优化他们的应用，

2025年4月24号 14:54

13.1k

红杉投资AI初创公司Listen Labs筹集2700万美元，颠覆市场研究行业

近日，红杉资本投资的人工智能初创公司Listen Labs宣布，已成功筹集到2700万美元的融资，旨在颠覆传统的市场研究行业。公司通过创新的人工智能技术，实现了在数千个语音访谈中同时进行客户研究，极大提升了调研效率和精度。AI驱动的语音访谈，打破市场研究的时间与成本壁垒Listen Labs的核心技术依赖于先进的人工智能模型，能够在短短几小时内完成传统市场研究方法数天甚至数周才能完成的工作。客户只需通过Listen平台，根据人口统计信息和地理位置生成问题，找到合适的受访者，并

2025年4月24号 14:00

10.4k

国家知识产权局：中国成为全球AI专利最大拥有国，占比达60%

国家知识产权局局长申长雨在国务院新闻办公室的发布会上透露，中国在人工智能领域正展现出强劲的发展势头。根据世界知识产权组织的报告，中国已成为全球人工智能专利的最大拥有国，专利数量占全球总量的60%。这一成就不仅反映了中国在科技创新方面的突破，也彰显了其在新兴产业中的领导地位。图源备注:图片由AI生成，图片授权服务商Midjourney申长雨强调，人工智能被视为推动新一轮科技革命和产业变革的重要驱动力量。近年来，随着 Deepseek 等国产大模型的崛起，人工智能技术

2025年4月24号 13:37

10.4k

AI电影也能拿奥斯卡？学院派最新规则引爆行业讨论！

奥斯卡主办方——美国电影艺术与科学学院扔下一枚重磅炸弹：使用人工智能（AI）协助制作的电影，将有资格角逐奥斯卡大奖！这一最新规则的出台，无疑给正在激烈讨论中的AI与影视创作关系，又添了一把火。

2025年4月23号 11:32

3.8k

股神也爱AI？巴菲特2650亿投资组合揭秘：四大AI潜力股曝光！

股神也爱AI?巴菲特2650亿投资组合揭秘:四大AI潜力股曝光!核心提示: 沃伦·巴菲特，这位自1965年起执掌伯克希尔·哈撒韦的传奇投资人，以其惊人的长期回报率闻名于世。虽然他以不追逐市场热点著称，但其价值2650亿美元的投资组合中，竟有超过三分之一（34.4%）投向了四家积极拥抱人工智能(AI)的公司。这究竟是怎么回事?巴菲特的投资哲学与AI的“意外”交集巴菲特一直是一位坚定的长期价值投资者，他关注的是企业的内在价值、盈利能力和管理团队，而非短暂的市场潮流。因此，你不会看

2025年4月23号 11:15

1.4k

AI资讯

AI日报

AI时间线

Al硬件

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图

大模型评测平台CompassArena升级 推出全新 Judge Copilot 功能