最近,加州大学洛杉矶分校和亚马逊的研究人员对大型语言模型(LLMs)的推理能力进行了深入分析。他们首次系统地区分了归纳推理和演绎推理这两种能力,探讨了这两者对 AI 系统的挑战程度。
图源备注:图片由AI生成,图片授权服务商Midjourney
归纳推理是指从具体的观察中推导出一般性规律,而演绎推理则是将一般规则应用于特定案例。研究的目的是了解哪种推理能力对大型语言模型来说更具挑战性。为此,研究团队开发了一种新的方法,称为 “SolverLearner”。这种方法使得模型通过少量示例学习一种函数,将输入映射到输出。接着,外部程序使用这个函数,从而避免与演绎推理混淆。
研究结果显示,像 GPT-4这样的语言模型在归纳推理方面表现相当出色,使用 “SolverLearner” 方法的情况下,准确率几乎达到100%。不过,在演绎推理,尤其是 “反事实” 任务上,模型们就显得力不从心了。例如,模型在十进制的算术任务上表现良好,但在其他数字系统的计算中就遇到了困难。此外,模型在分析一些词序不寻常或空间取向改变的句子时,也显得不够灵活。
研究人员总结道,演绎推理对于当前的 LLMs 来说是一大挑战。正确应用已学的规则,往往取决于这些任务在训练过程中的出现频率。尽管使用了如链式思维等提示方法,能够稍微提高模型的演绎推理能力,但效果仍然不够理想。值得一提的是,最近发布的 OpenAI 新模型 o1并未参与此次测试。
另一项由俄亥俄州立大学和卡内基梅隆大学的研究人员进行的研究,考察了 Transformer 模型的逻辑推理能力。他们研究模型是否可以通过 “grokking” 来获取隐含推论的能力,特别是在组合和比较任务中。
结果显示,这些模型确实可以在经过长时间训练后获得隐含推论的能力,但只有在比较任务中能够对未见过的示例进行泛化。研究人员指出,这种差异与所学电路的内部结构有关,并建议对 Transformer 架构进行调整,以期望在初步实验中实现质量提升。
划重点:
🌟 LLMs 在归纳推理方面表现出色,准确率接近100%。
🧩 演绎推理依然是个挑战,尤其在处理反事实任务时。
🔍 另一项研究显示,Transformer 模型在组合任务中能够获得隐含推论能力,但泛化能力有限。