最新的研究中,谷歌与卡内基梅隆大学及 MultiOn 团队联手,探讨了合成数据对大型模型的训练效果。他们发现,合成数据能够显著提升大模型在逻辑推理方面的表现,尤其是在数学问题的解决能力上,提升幅度达到了惊人的八倍。这一发现对于当前训练数据日益匮乏的现状具有重要的意义。

目前,全球可用的高质量文本训练数据约为300万亿条,但随着像 ChatGPT 这样的模型日益普及,对训练数据的需求急剧增加,预计到2026年,这些数据将难以满足需求。在此背景下,合成数据成为了一种极为关键的替代方案。

image.png

研究团队主要探索了两类合成数据:正向数据和负向数据。正向数据是由像 GPT-4和 Gemini1.5Pro 等高性能模型生成的正确问题解决方案,它们为其他模型提供了示范。然而,仅依靠正向数据进行训练存在一些不足之处。例如,模型可能会通过模式匹配来学习,而未能真正理解问题的解决过程,导致其泛化能力下降。

为了克服这些不足,研究团队引入了负向数据,主要是那些被验证为错误的问题解决步骤。这种数据帮助模型识别常见错误,从而提升其逻辑推理能力。尽管负向数据的使用存在一定挑战,因为错误步骤可能带有误导性信息,但研究人员通过直接偏好优化(DPO)的方法,使模型能够从错误中有效学习,从而明确每个步骤在问题解决过程中的重要性。

在研究过程中,团队使用了 DeepSeek-Math-7B 和 LLaMa2-7B 等模型,在 GSM8K 和 MATH 数据集上进行了大量测试。结果显示,经过正向和负向合成数据预训练的大模型,在数学推理任务中的表现提升了八倍。这一研究成果不仅证明了合成数据在增强大模型逻辑推理能力方面的巨大潜力,同时也为未来模型训练提供了新的思路。