生成式语言模型在从训练到实际应用的过程中面临着许多挑战。其中一个主要问题是如何在推理阶段使模型达到最佳表现。
目前的对策,如通过人类反馈的强化学习(RLHF),主要集中在提高模型的胜率上,但往往忽视了推理时的解码策略,例如 Best-of-N 采样和控制解码。这种训练目标与实际使用之间的差距,可能导致效率低下,影响输出的质量和可靠性。
为了解决这些问题,谷歌 DeepMind 和谷歌研究团队开发了 InfAlign,这是一个旨在与推理策略相结合的机器学习框架。InfAlign 将推理时的方法纳入对齐过程,力求弥补训练与应用之间的鸿沟。它通过一种校准的强化学习方法来调整基于特定推理策略的奖励函数。InfAlign 对 Best-of-N 采样(生成多个响应并选择最佳者)和 Worst-of-N(常用于安全评估)等技术特别有效,确保对齐的模型在控制环境和现实场景中都能表现良好。
InfAlign 的核心是校准与变换强化学习(CTRL)算法,该算法遵循三个步骤:校准奖励分数、根据推理策略变换这些分数、解决一个 KL 正则化的优化问题。通过将奖励变换定制化到特定场景,InfAlign 将训练目标与推理需求对齐。这种方法不仅提升了推理时的胜率,还保持了计算效率。此外,InfAlign 增强了模型的鲁棒性,使其能够有效应对各种解码策略,并产生一致的高质量输出。
在使用 Anthropic 的有用性和无害性数据集进行的实验中,InfAlign 的有效性得到了验证。与现有方法相比,InfAlign 在 Best-of-N 采样的推理胜率上提高了8%-12%,在 Worst-of-N 安全评估中则提高了4%-9%。这些改进得益于其校准的奖励变换,有效解决了奖励模型的误校准问题,确保了在不同推理场景下的一致表现。
InfAlign 在生成语言模型的对齐方面代表了一项重要的进展。通过结合推理感知的策略,InfAlign 解决了训练与部署之间的关键差异。它扎实的理论基础和实证结果凸显了其在全面改善 AI 系统对齐方面的潜力。
链接:https://arxiv.org/abs/2412.19792
划重点:
🌟 InfAlign 是谷歌 DeepMind 开发的新框架,旨在提升语言模型在推理阶段的表现。
📈 该框架通过校准的强化学习方法,调整推理策略的奖励函数,实现训练目标与推理需求的对齐。
✅ 实验结果表明,InfAlign 在多项任务中显著提高了模型的推理胜率,展现出良好的适应性和可靠性。