Light-R1 es un proyecto de código abierto desarrollado por Qihoo360, que tiene como objetivo entrenar modelos de razonamiento de cadenas largas mediante el ajuste supervisado por cursos (SFT), la optimización de preferencias directas (DPO) y el aprendizaje por refuerzo (RL). Este proyecto, mediante conjuntos de datos depurados y métodos de entrenamiento eficientes, ha logrado la capacidad de razonamiento de cadenas largas desde cero. Sus principales ventajas incluyen datos de entrenamiento de código abierto, un método de entrenamiento de bajo coste y un rendimiento excelente en el ámbito del razonamiento matemático. El contexto del proyecto se basa en las necesidades actuales de entrenamiento de modelos de razonamiento de cadenas largas, con el objetivo de proporcionar un método de entrenamiento transparente y reproducible. El proyecto actualmente es de código abierto y gratuito, adecuado para instituciones de investigación y desarrolladores.