谷歌DeepMind新方法GenRM 一举提升AI推理能力，准确率飙升

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Sep 3, 2024

447

最近，谷歌 DeepMind 的研究团队联合多所高校提出了一种新方法，名为生成奖励模型（GenRM），旨在提升生成式 AI 在推理任务中的准确性和可靠性。

生成式 AI 被广泛应用于自然语言处理等多个领域，主要通过预测一系列词汇的下一个词来生成连贯的文本。然而，这些模型有时会自信地输出错误的信息，尤其在教育、金融和医疗等对准确性要求极高的领域，这无疑是个大问题。

目前，针对生成式 AI 模型在输出准确性上遇到的困难，研究人员尝试了不同的解决方案。其中，判别式奖励模型（RMs）被用来根据分数判断潜在答案的正确与否，但这种方法未能充分利用大型语言模型(LLMs)的生成能力。而另一个常用的方法是 “LLM 作为评判者”，但这种方法在解决复杂的推理任务时，效果往往不如专业的验证器。

GenRM 的创新之处在于将验证过程重新定义为下一个词预测任务。这意味着，与传统的判别式奖励模型不同，GenRM 将 LLMs 的文本生成能力融入到验证过程中，使得模型能够同时生成和评估潜在的解决方案。此外，GenRM 还支持链式推理（CoT），即模型在得出最终结论之前，可以生成中间的推理步骤，从而使验证过程更加全面和系统。

通过将生成与验证结合起来，GenRM 方法采用了一种统一的训练策略，使得模型能够在训练过程中同时提升生成和验证能力。在实际应用中，模型会生成中间推理步骤，这些步骤用于验证最终答案。

研究人员发现，GenRM 模型在多个严谨测试中表现优异，例如在学龄前数学和算法问题解决任务中，GenRM 的准确率显著提高。与判别式奖励模型和 LLM 作为评判者的方法相比，GenRM 的解决问题成功率提高了16%到64%。

例如，在验证 Gemini1.0Pro 模型的输出时，GenRM 将问题解决成功率从73% 提升到了92.8%。