近期研究发现,大型语言模型在逻辑推理任务中受前提信息呈现顺序影响,乱序可能导致性能下降。谷歌DeepMind和斯坦福研究人员指出,逻辑自然顺序排列的前提可以提高模型表现。对于LLM等模型,改变前提顺序会导致性能下降,需要进一步研究解决。前提顺序对大型语言模型推理表现具有重大影响,仍是挑战。Gemini、GPT-4等存在重大缺陷,LLM表现严重下降。