Salesforce AI 推全新大语言模型评估家族SFR-Judge 基于Llama3构建

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Sep 29, 2024

138

在自然语言处理领域，大型语言模型（LLMs）的发展迅速，已经在多个领域取得了显著的进展。不过，随着模型的复杂性增加，如何准确评估它们的输出就变得至关重要。传统上，我们依赖人类来进行评估，但这种方式既耗时又难以规模化，无法跟上模型快速发展的步伐。

为了改变这种现状，Salesforce AI 研究团队推出了 SFR-Judge，这是一个由三个大型语言模型组成的评估家族。这些模型分别拥有80亿、120亿和700亿个参数，基于 Meta Llama3和 Mistral NeMO 构建。SFR-Judge 能够执行多种评估任务，包括成对比较、单一评分和二分类评估，旨在帮助研究团队快速高效地评估新模型的表现。

传统的 LLM 评估模型往往存在一些偏差问题，比如位置偏差和长度偏差，这会影响它们的判断。为了克服这些问题，SFR-Judge 采用了直接偏好优化（DPO）训练方法，让模型从正负例中学习，从而提升其评估任务的理解能力，减少偏差，确保判断的一致性。

在测试中，SFR-Judge 在13个基准测试上表现优异，超过了许多现有的评估模型，包括一些私有模型。特别是在 RewardBench 排行榜上，SFR-Judge 的准确率达到了92.7%，这是生成型评估模型首次和第二次超越90% 的门槛，展现出其在评估模型中的卓越表现。

SFR-Judge 的训练方法涵盖三种不同的数据格式。首先是 “思维链批评”，帮助模型生成对评估响应的结构化分析。其次是 “标准评判”，简化评估过程，直接反馈响应是否符合标准。最后，“响应推导” 则帮助模型理解高质量回应的特征，强化其判断能力。这三种数据格式的结合，使得 SFR-Judge 的评估能力得到了极大提升。

经过大量实验，SFR-Judge 模型在减少偏差方面表现显著优于其他模型。在 EvalBiasBench 基准测试中，它们展现了高度的成对顺序一致性，这表明即便响应顺序发生变化，模型的判断依然保持稳定。这使得 SFR-Judge 成为一种可靠的自动化评估解决方案，减少了对人工标注的依赖，为模型评估提供了更可扩展的选择。

论文入口:https://arxiv.org/abs/2409.14664

划重点:
📊 高准确率:SFR-Judge 在13个基准测试中取得了10个最佳成绩，尤其是在 RewardBench 上达到了92.7% 的高准确率。
🛡️ 偏差缓解:该模型显示出比其他评估模型更低的偏差，特别是在长度和位置偏差方面。
🔧 多功能应用:SFR-Judge 支持成对比较、单一评分和二分类评估，能够适应多种评估场景。

聚焦售后治理，淘宝天猫推出 AI假图识别模型等 10 项规则调整

淘宝天猫宣布2026年营商环境优化方向，将推出10项新举措，重点整治售后违规行为，降低商家隐性成本。针对利用合成或篡改图片骗取退款的问题，平台将启动专项治理，上线图片真实性识别功能，支持商家在旺旺聊天中验证图片真伪。

东软集团携手 Cerence AI，打造未来智能座舱新体验

东软集团与Cerence AI达成战略合作，共同开发新一代智能座舱平台，聚焦智能语音与大语言模型技术，为全球车企提供高效、预集成的智能交互解决方案。东软将依托其NAGIC智能座舱平台，结合Cerence AI的前沿技术，满足市场对智能座舱日益增长的需求。

Anthropic年化营收突破90亿美元，半年翻倍！

Anthropic公司商业化进程迅猛，其年化营收在半年内从40亿美元飙升至超90亿美元，实现翻倍增长。这主要得益于Claude大模型在企业级AI服务中的强劲需求，尤其是在金融、法律、医疗等高合规要求行业的成功落地，凸显了其在高端客户中的深度渗透。

从Agent到DeepSeek:英伟达CEO谈AI模型的三大里程碑突破

英伟达CEO黄仁勋在达沃斯论坛上表示，过去一年AI模型层取得三大突破：一是代理式AI的崛起，模型具备复杂推理与计划能力；二是开源模型生态繁荣，如DeepSeek等降低了技术门槛；三是多模态AI的快速发展，推动AI应用更广泛落地。

视频 AI 迎来“临界点”:可灵 AI 霸榜40国，2025年收入狂揽1.4亿美元

快手旗下可灵AI在2026年初实现爆发式增长，月活跃用户突破1200万，App付费用户环比激增350%。增长主要得益于产品快速迭代，包括2025年底发布的多模态视频模型O1和“音画同出”功能，以及2026年1月推出的“动作控制”新功能，用户可通过图片和动作参考生成视频。

AI新闻资讯

最新AI日报

AI 商用·开源产品库

AI 产品排行榜

AI产品提交

AI工具导航

模型库

大模型排行榜

模型供应商

大模型选型对比

大模型费用计算器

大模型竞技场

MCP服务端

MCP客户端

MCP教程与实践

MCP排行榜

MCP服务提交

MCP实验场

MCP服务调试器

GEO全景分析平台

GEO品牌监控分析

GEO排名查询工具

GEO 大模型推荐优化

模型个人电脑配置检测器

模型部署服务器配置计算器

​Salesforce AI 推全新大语言模型评估家族SFR-Judge 基于Llama3构建

AIbase基地

本文来自AIbase日报

相关AI新闻推荐

聚焦售后治理，淘宝天猫推出 AI假图识别模型 等 10 项规则调整

百度重磅推出文心 5.0 大模型，2.4 万亿参数引领全模态 AI 新纪元！

淘宝天猫出重拳！AI 假图识别模型上线，让 P 图骗保无所遁形

百川智能再推 M3 Plus，刷新医疗模型可靠性与应用成本新纪录

​Inworld 推出全新 TTS-1.5：实时语音，延迟低，并支持多语言

东软集团携手 Cerence AI，打造未来智能座舱新体验

Anthropic年化营收突破90亿美元，半年翻倍！

从Agent到DeepSeek:英伟达CEO谈AI模型的三大里程碑突破

视频 AI 迎来“临界点”:可灵 AI 霸榜40国，2025年收入狂揽1.4亿美元

Medeo AI新版正式在海外发布：自然语言一键改脚本，普通人也能拍大片

相关AI新闻推荐

聚焦售后治理，淘宝天猫推出 AI假图识别模型 等 10 项规则调整

百度重磅推出文心 5.0 大模型，2.4 万亿参数引领全模态 AI 新纪元！

淘宝天猫出重拳！AI 假图识别模型上线，让 P 图骗保无所遁形

百川智能再推 M3 Plus，刷新医疗模型可靠性与应用成本新纪录

​Inworld 推出全新 TTS-1.5：实时语音，延迟低，并支持多语言

东软集团携手 Cerence AI，打造未来智能座舱新体验

Anthropic年化营收突破90亿美元，半年翻倍！

从Agent到DeepSeek:英伟达CEO谈AI模型的三大里程碑突破

视频 AI 迎来“临界点”:可灵 AI 霸榜40国，2025年收入狂揽1.4亿美元

Medeo AI新版正式在海外发布：自然语言一键改脚本，普通人也能拍大片

Salesforce AI 推全新大语言模型评估家族SFR-Judge 基于Llama3构建

聚焦售后治理，淘宝天猫推出 AI假图识别模型等 10 项规则调整

Inworld 推出全新 TTS-1.5：实时语音，延迟低，并支持多语言

聚焦售后治理，淘宝天猫推出 AI假图识别模型等 10 项规则调整

Inworld 推出全新 TTS-1.5：实时语音，延迟低，并支持多语言