Light-R1 est un projet open source développé par Qihoo360, visant à entraîner des modèles d'inférence à longues chaînes via l'ajustement supervisé par le biais de cours (SFT), l'optimisation des préférences directes (DPO) et l'apprentissage par renforcement (RL). Ce projet, grâce à des jeux de données dépollués et des méthodes d'entraînement efficaces, permet d'obtenir une capacité d'inférence à longues chaînes à partir de zéro. Ses principaux avantages incluent des données d'entraînement open source, une méthode d'entraînement peu coûteuse et des performances exceptionnelles dans le domaine du raisonnement mathématique. Le contexte du projet repose sur les besoins actuels en matière d'entraînement de modèles d'inférence à longues chaînes, visant à fournir une méthode d'entraînement transparente et reproductible. Le projet est actuellement open source et gratuit, et convient aux institutions de recherche et aux développeurs.