Light-R1は、Qihoo360が開発したオープンソースプロジェクトであり、コース形式の教師あり微調整(SFT)、直接選好最適化(DPO)、強化学習(RL)によって長鎖推論モデルを訓練することを目指しています。このプロジェクトは、データセットの浄化と効率的な訓練方法によって、ゼロから長鎖推論能力を実現しました。主な利点としては、オープンソースの訓練データ、低コストの訓練方法、そして数学的推論分野における優れた性能が挙げられます。プロジェクトの背景は、現在の長鎖推論モデルの訓練ニーズに基づいており、透明性があり再現可能な訓練方法を提供することを目指しています。プロジェクトは現在無料でオープンソースとなっており、研究機関や開発者による利用に適しています。