OpenAI发布新技术PVG：用小模型验证大模型输出的准确性

AIbase

发布于AI新闻资讯 · 1 分钟阅读 · 2024年7月18号 9:48

160

OpenAI最近发布了一项名为Prover-Verifier Games（PVG）的新技术，旨在解决人工智能模型输出的“黑盒”问题。

想象一下，你有一个超级智能的助手，但它的思考过程就像一个黑盒子，你完全不知道它是怎么得出结论的。这听起来是不是有点让人不放心?没错，这就是目前很多大型语言模型（LLM）面临的问题。它们虽然强大，但生成的内容准确性却难以验证。

论文网址：https://cdn.openai.com/prover-verifier-games-improve-legibility-of-llm-outputs/legibility.pdf

为了解决这个问题，OpenAI推出了PVG技术。简单来说，就是让小模型（比如GPT-3）来监督大模型(比如GPT-4)的输出。这就像是在玩一个游戏，证明者(Prover)负责生成内容，而验证者(Verifier)则负责判断这些内容是否正确。听起来是不是很有趣?

在这个规则中，证明者和验证者通过多轮迭代训练，不断提升自己的能力。验证者通过监督学习来预测内容的正确性，而证明者则通过强化学习来优化其生成的内容。更有趣的是，还有两种类型的证明者:有用的证明者和狡猾的证明者。有用的证明者努力生成正确且有说服力的内容，而狡猾的证明者则试图生成错误但同样有说服力的内容，以此来挑战验证者的判断力。

penAI强调，为了训练有效的验证者模型，需要大量真实准确的标签数据，以提升其识别能力。否则，即使使用PVG技术，验证的内容仍可能存在非法输出的风险。

划重点:
😄 PVG技术通过小模型验证大模型输出，解决了AI“黑盒”问题。
😄 训练框架基于博弈论，模拟证明者和验证者的互动，提高了模型输出的准确性和可控性。
😄 需要大量真实数据来训练验证者模型，确保其具备足够的判断力和鲁棒性。

AI音乐生成模型MusiConGen:用Transformer生成音乐，精确控制节奏和和弦

MusiConGen模型是在预训练的MusicGen-melody框架基础上进行微调的，主要用于生成各种风格的音乐片段。研究团队通过设置和弦和节奏的控制参数，展示了模型生成的音乐样本，涵盖了五种不同风格:休闲布鲁斯、平滑酸爵士、经典摇滚、高能放克以及重金属。

日本超市开始用AI技术监控员工微笑网友直呼大可不必

日本永旺超市利用AI系统"Smile-Kun"监控员工微笑，旨在通过量化员工的微笑及声音分析，提升服务技能。该系统要求员工通过特定方式打招呼，依据450个微表情点评分，满分为100分，并实时反馈，此外分析音量、流畅度和语气提供改进建议。员工反应显示微笑比例显著提升。然而，此举引发争议，部分网友批评做法过度量化员工个性情感，难以体现真诚服务。批评者认为基于上下级或同事评估更为合理。此做法虽旨在提高效率，但需考虑如何在追求效时兼顾员工感受与尊严，反思员工服务的真实性和人性化管理。

马斯克的xAI将于下月发布Grok 2，Grok 3预计12月推出

Elon Musk宣布xAI公司将于下月发布性能与GPT-4相当的AI模型Grok2，预计12月推出更强大的Grok3，该模型正在孟菲斯数据中心进行15000+GPU的大规模训练。虽仅部分特斯拉视频数据尚未应用于模型训练，但如ChatGPT对比显示Grok在某些方面仍见不足，밤收购语境下的追赶仍需时间。

小红书开首家“AI便利店” 为优秀AI笔记内容提供3W到50W流量扶持

小红书近日上线“科技薯”账号，启动全球首间AI便利店创业项目。通过与全网优质创作者和科技公司合作，提供AI前沿应用、干货、情感体验等内容，该便利店内售卖包括@赵纯想等人的创意AI产品，例如吃饭辅助、AI式泡面教程、AI颈椎病治疗、林亦LYi的祖传AI治疗、AI帮老妈完成未竟之事等。科技薯还开设活动，邀请笔记写手用 "#AI便利店" 发布AI相关笔记，可获得三万到五十万流量扶持、科技薯官方推荐和小米机器狗等惊喜奖励。此活动不仅整合AI内容，还通过激励机制催生更多AI创意内容。

AI新闻资讯

OpenAI发布新技术PVG：用小模型验证大模型输出的准确性

AIbase

相关AI新闻推荐

​AI音乐生成模型MusiConGen:用Transformer生成音乐，精确控制节奏和和弦

日本超市开始用AI技术监控员工微笑 网友直呼大可不必

马斯克的xAI将于下月发布Grok 2，Grok 3预计12月推出

小红书开首家“AI便利店” 为优秀AI笔记内容提供3W到50W流量扶持

AI音乐生成模型MusiConGen:用Transformer生成音乐，精确控制节奏和和弦

日本超市开始用AI技术监控员工微笑网友直呼大可不必