Meta推“自学评估器”: 无需人工注释NLP模型评估，优于 GPT-4 等常用的LLM

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Aug 7, 2024

292

在当今时代，自然语言处理（NLP）领域发展迅速，大型语言模型(LLMs)能够高精度地执行复杂的语言相关任务，为人机交互带来了更多可能。然而，NLP 中存在一个显著问题，那就是模型评估对人类注释的依赖。

人类生成的数据对于模型的训练和验证至关重要，但收集这些数据既昂贵又耗时。而且，随着模型不断改进，先前收集的注释可能需要更新，其在评估新模型时的效用降低，这就导致需要持续获取新数据，给有效模型评估的规模化和可持续性带来了挑战。

Meta FAIR 的研究人员带来了全新的解决方案——“Self-Taught Evaluator”（自学评估器）。这一方法无需人类注释，而是利用合成生成的数据进行训练。首先通过种子模型生成对比的合成偏好对，然后模型对这些对进行评估并迭代改进，利用自己的判断来提升后续迭代中的性能，大大降低了对人类生成注释的依赖。

研究人员使用 Llama-3-70B-Instruct 模型对“自学评估器”的性能进行了测试。该方法将模型在 RewardBench 基准上的准确性从75.4提高到88.7，达到甚至超越了使用人类注释训练的模型性能。经过多次迭代，最终模型在单次推理中达到88.3的准确率，多数投票下达到88.7，展现出其强大的稳定性和可靠性。

“自学评估器”为 NLP 模型评估提供了可扩展且高效的解决方案，利用合成数据和迭代自我改进，应对了依赖人类注释的挑战，推动了语言模型的发展。

论文地址:https://arxiv.org/abs/2408.02666

划重点:
- 😃NLP 模型评估依赖人类注释，存在收集数据成本高、耗时且效用易降低的问题。
- 🤖Meta FAIR 推出“Self-Taught Evaluator”，利用合成数据训练，降低对人类注释的依赖。
- 💪“自学评估器”性能出色，在测试中显著提高模型准确率，表现稳定可靠。

自然语言处理大型语言模型 MetaFAIR 自学评估器

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

谷歌在全球推行全新 Veo 3 视频生成模型

谷歌宣布正式在全球范围内推出其最新的视频生成模型 Veo3。此次发布的消息令广大用户期待已久，Veo3现已向超过159个国家的 Gemini 用户开放，提供全新的视频创作体验。Veo3视频生成模型的特点在于其能够让用户通过简单的文本提示生成最多八秒钟的视频。根据谷歌的介绍，这项技术专为追求创意的用户设计，尤其是对短视频内容需求日益增加的社交媒体用户来说，Veo3将大大简化视频创作过程。不过，值得注意的是，Veo3目前仅对谷歌的 AI Pro 计划付费用户开放，且每日生成视频的数量限制

2025年7月4号 14:41

2.8k

揭开大模型的秘密！那些 “思考词” 背后藏着惊人的信息量

近日，来自中国人民大学、上海人工智能实验室、伦敦大学学院和大连理工大学的研究团队揭示了大模型推理过程中的一个重要发现:当模型在思考时，所使用的 “思考词” 实际上反映了其内部信息量的显著提升。这一研究成果通过信息论的方法，为我们更好地理解人工智能的推理机制提供了新的视角。你或许见过大模型在解答问题时，会输出一些看似人类化的语言，比如 “嗯……”、“让我想想……” 或 “因此……”。这些 “思考词” 是简单的表面装饰，还是代表着模型真正的思考

2025年7月4号 11:22

2.5k

DeepMind 推出 Crome:提升大型语言模型对人类反馈的对齐能力

在人工智能领域，奖励模型是对齐大型语言模型（LLMs）与人类反馈的关键组成部分，但现有模型面临着 “奖励黑客” 问题。这些模型往往关注表面的特征，例如回复的长度或格式，而不是识别真正的质量指标，如事实准确性和相关性。问题的根源在于，标准训练目标无法区分训练数据中存在的虚假关联和真实的因果驱动因素。这种失败导致了脆弱的奖励模型（RMs），从而生成不对齐的策略。为了解决这一问题，需要一种利用因果理解来训练 RMs 的新方法，以便对因果质量属性敏感，并对

2025年7月4号 11:09

1.6k

MiniMax 发布全球首个开源大规模 AI 模型，技术突破引发行业关注

近日，上海的 AI 独角兽公司 MiniMax 正式推出了全球首个开源大规模混合架构推理模型 ——MiniMax-M1。该模型一经推出，便迅速跻身权威评测榜单，成为全球开源模型的第二名，仅次于近期发布的 DeepSeek-R1-0528。这一里程碑式的成就让 MiniMax 创始人兼 CEO 闫俊杰在社交媒体上感慨:“第一次感觉到大山不是不能翻越。”MiniMax-M1的亮相不仅令人瞩目，其在技术细节上的表现更是出色。该模型在长文本处理和工具调用等方面显示出强大的优势，支持高达100万 token 的上下文输入能力，足以一次性处理

2025年7月4号 10:21

4.3k

昆仑万维再次开源奖励模型Skywork-Reward-V2

2025年7月4日，昆仑万维乘势而上，继续开源第二代奖励模型Skywork-Reward-V2系列。此系列共包含8个基于不同基座模型、参数规模从6亿到80亿不等的奖励模型，一经推出便在七大主流奖励模型评测榜单中全面夺魁，成为开源奖励模型领域的焦点。奖励模型在从人类反馈中强化学习（RLHF）过程中起着关键作用。为打造新一代奖励模型，昆仑万维构建了包含4000万对偏好对比的混合数据集Skywork-SynPref-40M。在数据处理上，团队采用人机协同的两阶段流程，将人工标注的高质量与模型的规模化处理能力相结合。第一阶段，先构建未经验证的初始偏好池，借助

2025年7月4号 10:02

2.7k

谷歌Veo 3视频生成模型向 Pro / Ultra 会员开放，将新增“照片生成视频”功能

谷歌在全球范围内宣布其最新一代AI文生视频模型 Veo3 正式向 Google AI Pro 和 Ultra 会员开放。这款由 Google DeepMind 研发的视频生成模型，以其卓越的高清画质、音画同步能力以及多模态创作功能，迅速成为AI视频生成领域的焦点。Veo3:重新定义AI视频生成在2025年 Google I/O 开发者大会上首次亮相的 Veo3，被誉为谷歌在AI视频生成领域的里程碑式产品。相比前代模型，Veo3在以下方面实现了显著突破:高清画质与物理真实感:Veo3支持生成 1080p 高清视频，内部测试甚至可达 4K 分辨率。其视频画面不仅细节

2025年7月4号 9:53

3.7k

中国医疗大模型发布量占全球70%！毕马威揭示未来市场潜力

根据毕马威中国最近发布的《首届健康科技50》报告，中国在全球医疗大模型的发布数量上占据了令人瞩目的70% 以上。这一数据不仅展现了中国在智能医疗领域的快速发展，也反映了大语言模型在医疗行业的广泛应用。报告指出，目前已经发布的医疗大模型中，大语言模型的数量占据了约65%。这类模型能够处理和生成自然语言，对于医疗数据的分析、患者交流及科研都有着重要的支持作用。而中国的表现尤为突出，其发布的医疗大模型数量不仅领先于其他国家，更是在全球市场中扮演着关

2025年7月4号 9:41

1.3k

OpenAI 版权诉讼新进展:《纽约时报》将可访问已删除的用户数据

在《纽约时报》起诉 OpenAI 的长期版权侵权诉讼中，案件取得了重大进展。据 Ars Technica 报道，审理此案的联邦法官已授权《纽约时报》及其共同原告《纽约每日新闻》和调查报道中心，访问 OpenAI 的用户日志，包括已删除的内容，以精确查明侵权范围。《纽约时报》认为，ChatGPT 用户可能会在绕过付费墙后删除历史记录，因此有必要进行大规模的数据覆盖。该报进一步声称，这些日志的搜索结果可能成为整个诉讼的关键证据:OpenAI 的大型语言模型（LLM）不仅使用了其受版权保护的材料进行训

2025年7月4号 9:21

950

小鹏 G7 Ultra 重磅登场！全新智能驾驶大模型震撼发布

在新能源汽车市场上，小鹏汽车再度引发关注。7月3日，小鹏 G7Ultra 正式上市，成为首款搭载本地端 “VLA+VLM” 大模型的智能汽车。这一创新技术的推出，标志着小鹏在智能驾驶领域迈出了重要一步。小鹏 G7Ultra 配备了 VLA（主动思考与迅速决策能力）大模型，让驾驶体验更为智能化。在日常驾驶中，G7Ultra 能够灵活应对各种复杂行驶场景，比如在拥堵的路段主动选择最佳绕行路线，或在遇到积水路面时自动减速，以确保行车安全。这些智能化功能让 G7Ultra 不仅是一个代步工具，更是一个能

2025年7月4号 8:52

2.2k

Shortcut横空出世！AI Excel助手10倍速碾压人类冠军，自动化任务效率飙升

近日，一款名为Shortcut的AI Excel助手在社交媒体上引发热议，其通过自然语言处理（NLP）技术，让用户无需编写复杂公式或VBA代码，即可轻松完成Excel任务。AIbase编辑团队整理了社交媒体上的最新信息，为您深度解析Shortcut的强大功能及其对数据处理和财务建模领域的潜在影响。Shortcut:自然语言驱动的Excel革命Shortcut被誉为“超人级Excel代理”（Superhuman Excel Agent），能够通过简单的自然语言指令完成复杂的Excel任务。用户只需描述需求，例如“帮我计算总销售额”或“生成月度销售趋势图”，

2025年7月3号 17:58

4.6k

AI资讯

AI日报

AI时间线

Al硬件

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图