智源研究院推出全球首个中文大模型辩论平台FlagEval Debate

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Sep 30, 2024

304

北京智源人工智能研究院（BAAI）最近推出了全球首个中文大模型辩论平台FlagEval Debate。这一新平台旨在通过模型辩论这一竞争机制，为大语言模型的能力评估提供新的度量方式。它是智源模型对战评测服务FlagEval大模型角斗场的扩展，目标是甄别大语言模型之间的能力差异。

现有的大模型对战存在一些问题，如模型对战结果往往平局，难以区分模型间的差异;测试内容依赖用户投票，需要大量用户参与;现有对战方式缺乏模型间的交互。为了解决这些问题，智源研究院采用了大模型辩论的形式进行评估。

辩论作为一种语言类智力活动，能够体现参与者的逻辑思维、语言组织、信息分析与处理能力。模型辩论能够展现大模型在信息理解、知识整合、逻辑推理、语言生成和对话能力等方面的水平，同时测试其在复杂语境中的信息处理深度和迁移应变能力。

微信截图_20240930140737.png

智源研究院发现，辩论这种交互性对战形式能够凸显模型之间的差距，并可以基于少量数据样本计算模型有效排名。因此，他们推出了基于众测的中文大模型辩论平台FlagEval Debate。

该平台支持两个模型围绕辩题展开辩论，辩题由平台随机抽取，辩题库主要由热搜话题、评测专家以及顶级辩论专家命制的辩题构成。所有用户均可在平台上对每场辩论进行评判，以提高用户体验。

每场模型辩论包括5轮意见发表，正反双方各有一次机会。为避免正反方位置带来的偏差，两个模型都会各做一次正方一次反方。每个大模型会与其他模型进行多场辩论，最终根据获胜积分计算模型排名。

模型辩论对战采取开放性众测和专家评测两种方式，其中专家评审团由专业辩论赛的选手和评委组成。开放性众测观众可以自由鉴赏和投票。

智源研究院表示，将继续探索模型辩论的技术路径与应用价值，坚持科学、权威、公正、开放的原则，不断完善FlagEval大模型评测体系，为大模型评测生态提供新的洞察与思考。

FlagEval Debate官网:

https://flageval.baai.org/#/debate

AI日报：字节发布Seed Prover1.5；MiniMax M2.1开源；通义开源语音交互大模型Fun-Audio-Chat-8B

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://app.aibase.com/zh1、字节跳动发布SeedProver1.5:推动形式化数学推理的新进展字节跳动Seed团队推出的SeedProver1.5在形式化数学推理领域取得重要突破，其通过Agentic强化学习显著提升了推理能力和效率。该功能强调隐私保护，并仅对部分用户开放。

AI新闻资讯

最新AI日报

AI 商用·开源产品库

AI 产品排行榜

AI产品提交

AI工具导航

模型库

大模型排行榜

模型供应商

大模型选型对比

大模型费用计算器

大模型竞技场

MCP服务端

MCP客户端

MCP教程与实践

MCP排行榜

MCP服务提交

MCP实验场

MCP服务调试器

GEO品牌监控分析

GEO排名查询工具

GEO 大模型推荐优化

模型个人电脑配置检测器

模型部署服务器配置计算器

智源研究院推出全球首个中文大模型辩论平台FlagEval Debate

AIbase基地

本文来自AIbase日报

相关AI新闻推荐

中兴押注AI手机！携手字节推“豆包手机”，开放生态或迎多模型共存时代

全国首个规划资源大模型“云宇星空”发布！6000亿参数，让城市规划“问不倒、调图快、识图准”

AI日报：字节发布Seed Prover1.5；MiniMax M2.1开源；通义开源语音交互大模型Fun-Audio-Chat-8B

阿里通义开源语音交互大模型Fun-Audio-Chat-8B！超低延迟，能读懂情绪

Jan团队发布Jan-v2-VL-Max！30B多模态模型专攻长周期Agent任务，长序列执行稳超Gemini 2.5 Pro

Alexa+大升级！2026年起整合Expedia、Yelp等四大平台，Amazon欲打造AI版“超级入口”

​长跑型 AI 登场：Jan 团队发布 Jan-v2-VL，深度优化多步任务执行力

​Lima v2.0 重磅发布：从容器利器进化为安全 AI 工作流的“隐形盾牌”

面壁智能完成数亿元融资！端侧大模型加速落地，吉利、长安、大众已上车

MiniMax M2.1震撼开源！100亿激活参数编码模型登顶SOTA，多语言编程全面超越Gemini3Pro与Claude 4.5

相关AI新闻推荐

中兴押注AI手机！携手字节推“豆包手机”，开放生态或迎多模型共存时代

全国首个规划资源大模型“云宇星空”发布！6000亿参数，让城市规划“问不倒、调图快、识图准”

AI日报：字节发布Seed Prover1.5；MiniMax M2.1开源；通义开源语音交互大模型Fun-Audio-Chat-8B

阿里通义开源语音交互大模型Fun-Audio-Chat-8B！超低延迟，能读懂情绪

Jan团队发布Jan-v2-VL-Max！30B多模态模型专攻长周期Agent任务，长序列执行稳超Gemini 2.5 Pro

Alexa+大升级！2026年起整合Expedia、Yelp等四大平台，Amazon欲打造AI版“超级入口”

​长跑型 AI 登场：Jan 团队发布 Jan-v2-VL，深度优化多步任务执行力

​Lima v2.0 重磅发布：从容器利器进化为安全 AI 工作流的“隐形盾牌”

面壁智能完成数亿元融资！端侧大模型加速落地，吉利、长安、大众已上车

MiniMax M2.1震撼开源！100亿激活参数编码模型登顶SOTA，多语言编程全面超越Gemini3Pro与Claude 4.5

长跑型 AI 登场：Jan 团队发布 Jan-v2-VL，深度优化多步任务执行力

Lima v2.0 重磅发布：从容器利器进化为安全 AI 工作流的“隐形盾牌”

长跑型 AI 登场：Jan 团队发布 Jan-v2-VL，深度优化多步任务执行力

Lima v2.0 重磅发布：从容器利器进化为安全 AI 工作流的“隐形盾牌”