大型语言模型在许多任务中表现出色,但其推理能力一直备受争议。Meta 的研究人员近日发表论文,展示了他们如何利用 Transformer 模型解决数学领域一个长期存在的难题:发现动力系统的全局李雅普诺夫函数。
李雅普诺夫函数可以判断一个动力系统是否稳定,例如,它可以用来预测三体问题的长期稳定性,即三个天体在引力作用下的长期运动轨迹。然而,目前还没有找到通用的方法来推导出李雅普诺夫函数,只有少数系统已知其对应的函数。
为了解决这个问题,Meta 的研究人员训练了一个序列到序列的 Transformer 模型,用于预测给定系统的李雅普诺夫函数。他们创新地使用“逆向生成”方法创建了大量的训练数据集,其中包含稳定的动力系统及其对应的李雅普诺夫函数。
传统的“正向生成”方法是从随机生成的系统出发,尝试计算其李雅普诺夫函数,这种方法效率低下,且只能处理特定类型的简单系统。而“逆向生成”方法则是先随机生成李雅普诺夫函数,然后构建与其对应的稳定系统,从而绕过了计算李雅普诺夫函数的难题,并能生成更多样化的训练数据。
研究人员发现,在“逆向生成”数据集上训练的 Transformer 模型在测试集上达到了接近完美的准确率(99%),并且在分布外测试集上也表现出色(73%)。更令人惊喜的是,通过在训练集中添加少量(300个)“正向生成”的简单示例,模型的准确率可以进一步提高到84%,这表明即使是少量的已知解决方案也能显著提升模型的泛化能力。
为了测试模型发现新李雅普诺夫函数的能力,研究人员生成了数万个随机系统,并使用模型进行预测。结果表明,该模型在多项式系统上找到李雅普诺夫函数的成功率是现有最先进方法的十倍,并且还能发现非多项式系统的李雅普诺夫函数,而目前还没有任何算法可以做到这一点。
研究人员还将模型与人类数学家进行了比较,他们邀请了25名数学硕士研究生进行了一项测试,结果显示模型的准确率远高于人类。
这项研究表明,Transformer 模型可以被训练用于解决复杂的数学推理问题,并且“逆向生成”方法可以有效地创建训练数据集,从而突破传统方法的局限性。未来,研究人员计划将该方法应用于其他数学难题,并探索 AI 在科学发现中的更多可能性。
论文地址:https://arxiv.org/pdf/2410.08304