近期一项研究表明,通过特殊训练,语言模型可以部分实现更高效的多步骤推理能力。这种能力类似于心理学家丹尼尔·卡尼曼所描述的"系统2推理",即缓慢而有意识的信息处理方式。
Meta公司的研究人员开发出一种新方法,将计算密集型的多步骤推理过程"提炼"为语言模型的参数。研究结果显示,在某些情况下,经过这种方法训练的模型能够以更低的计算成本达到与原始多步骤过程相似的性能。
这种"提炼"方法的工作原理是:首先对大量示例数据应用多步骤推理方法,然后筛选并保留一致性高的结果,最后使用这些数据对语言模型进行微调训练。本质上,该方法通过生成合成训练数据,使语言模型能够直接得出结论而无需中间步骤。
图源备注:图片由AI生成,图片授权服务商Midjourney
研究人员将这种方法应用于四种不同的多步骤推理技术和五种任务类型。结果表明,在许多情况下这种方法都能有效提升模型性能,但并非适用于所有场景。
例如,在避免偏见和改善回应质量等任务中,经过"提炼"的模型表现与多步骤方法相当,但所需计算资源大幅减少。然而,在复杂的数学推理任务中,这种方法却未能奏效。研究人员推测,某些任务对于单步推理来说可能过于复杂。
尽管如此,研究人员认为这种方法为开发更强大的语言处理系统提供了一个有前景的方向。未来可以将这种方法与其他技术相结合,专注于解决真正具有挑战性的问题。
这项研究为提升语言模型的推理能力开辟了新的路径,有望在多个应用领域带来突破。