近日,来自国内昆仑万维颜水成团队与新加坡南洋理工大学的研究团队发布了一项名为 Q * 的项目,旨在提升小模型的推理能力。这一项目不同于 OpenAI,却能让小模型达到参数量比其大数十倍、甚至上百倍模型的推理能力。

该研究团队通过 Q * 算法的实验表现,取得了显著的成果:在 GSM8K 数据集上,Q * 帮助 Llama-2-7b 提升至80.8% 的准确率,超越了 ChatGPT。

image.png

在 MATH 数据集上,Q * 帮助 DeepSeek-Math-7b 提升至55.4% 的准确率,超越了 Gemini Ultra。

在 MBPP 数据集上,Q * 帮助 CodeQwen1.5-7b-Chat 提升至77.0% 的准确率,缩小了与 GPT-4的编程水平差距。这些成果显示出 Q * 算法在提升小模型推理能力方面的潜力。

 Q * 算法的工作原理是通过将大语言模型的推理轨迹分解为若干个状态,对每一个状态进行全盘规划,利用 A * 搜索算法实现了复杂推理任务的优先搜索。同时,他们还通过监督学习的方式训练了一个代理 Q 值模型,以获得状态 - 动作对的最优 Q 值,从而提升模型的性能。

划重点:

🔍 Q * 项目非 OpenAI 发布,通过研究团队的算法,小模型的推理能力得到大幅提升。

🔍 该项目在多个数据集上取得了显著的实验成果,证明了 Q * 算法的潜力和有效性。

🔍论文链接:https://arxiv.org/abs/2406.14283