最近,谷歌 DeepMind 的研究团队联合多所高校提出了一种新方法,名为生成奖励模型(GenRM),旨在提升生成式 AI 在推理任务中的准确性和可靠性。

生成式 AI 被广泛应用于自然语言处理等多个领域,主要通过预测一系列词汇的下一个词来生成连贯的文本。然而,这些模型有时会自信地输出错误的信息,尤其在教育、金融和医疗等对准确性要求极高的领域,这无疑是个大问题。

image.png

目前,针对生成式 AI 模型在输出准确性上遇到的困难,研究人员尝试了不同的解决方案。其中,判别式奖励模型(RMs)被用来根据分数判断潜在答案的正确与否,但这种方法未能充分利用大型语言模型(LLMs)的生成能力。而另一个常用的方法是 “LLM 作为评判者”,但这种方法在解决复杂的推理任务时,效果往往不如专业的验证器。

image.png

GenRM 的创新之处在于将验证过程重新定义为下一个词预测任务。这意味着,与传统的判别式奖励模型不同,GenRM 将 LLMs 的文本生成能力融入到验证过程中,使得模型能够同时生成和评估潜在的解决方案。此外,GenRM 还支持链式推理(CoT),即模型在得出最终结论之前,可以生成中间的推理步骤,从而使验证过程更加全面和系统。

通过将生成与验证结合起来,GenRM 方法采用了一种统一的训练策略,使得模型能够在训练过程中同时提升生成和验证能力。在实际应用中,模型会生成中间推理步骤,这些步骤用于验证最终答案。

研究人员发现,GenRM 模型在多个严谨测试中表现优异,例如在学龄前数学和算法问题解决任务中,GenRM 的准确率显著提高。与判别式奖励模型和 LLM 作为评判者的方法相比,GenRM 的解决问题成功率提高了16%到64%。

例如,在验证 Gemini1.0Pro 模型的输出时,GenRM 将问题解决成功率从73% 提升到了92.8%。

image.png

GenRM 方法的推出标志着生成式 AI 领域的一大进步,通过将解决方案生成与验证统一为一个过程,显著提高了 AI 生成解决方案的准确性和可信赖性。

划重点:

1. 🌟 GenRM 通过将验证过程重新定义为下一个词预测任务,提高了生成式 AI 的推理能力。

2. 📈 GenRM 在多个测试中表现优异,准确率比传统方法提高了16% 到64%。

3. 🧠 该方法整合了生成与验证,提升 AI 在高风险领域的应用潜力。