この度、360智脳チームはDeepseekの強化学習効果の再現に成功し、オープンソースの推論モデルLight-R1-14B-DSを正式にリリースしたことを発表しました。このモデルはDeepSeek-R1-Distill-Llama-70BやDeepSeek-R1-Distill-Qwen-32Bを上回る性能を示し、14Bパラメータ規模で強化学習効果を実現した業界初のモデルとなりました。数学的推論能力が大幅に向上し、その成績は多くの32Bレベルのモデルを凌駕しています。
DeepSeek-R1-14Bと比較して、Light-R1-14B-DS*は数学コンテストタスクにおいて顕著な成果を上げています。AIME24テストでは4.3点向上し、AIME25ではなんと10点も向上しました。さらに、数学的推論タスクGPQAでは61.7点という優れた成績を収めています。
このブレークスルーを実現するため、360智脳チームは2つの革新的な訓練方法を採用しました。1つ目はCurriculum SFT(段階的教師あり微調整)で、段階的な訓練を通して、モデルが簡単な数学問題から徐々に複雑な問題へと移行し、論理的推論能力をさらに強化します。2つ目は強化学習(RL)で、14Bレベルの推論モデルへの適用に初めて成功し、推論精度を高めるだけでなく、他のスキルもほぼ損なうことなく維持しています。
今回のリリースにはモデル自体だけでなく、SFTデータ、コード、技術レポートもオープンソースとして公開され、業界にとって貴重なリソースとなります。この成果は、中小規模モデルにおける強化学習分野の大きな進歩を示しており、AI推論能力のさらなる普及と発展を促進する可能性があります。
プロジェクトアドレス:https://github.com/Qihoo360/Light-R1
モデルアドレス:https://huggingface.co/qihoo360/Light-R1-14B-DS
データアドレス:https://huggingface.co/datasets/qihoo360/Light-R1-SFTData