Light-R1-14B-DS est un modèle mathématique open source développé par Beijing Qihu Technology Co., Ltd. Ce modèle est entraîné par apprentissage par renforcement basé sur DeepSeek-R1-Distill-Qwen-14B. Il a obtenu des scores élevés de 74,0 et 60,2 respectivement aux tests de référence des concours mathématiques AIME24 et AIME25, surpassant de nombreux modèles de 32 milliards de paramètres. Il a réussi à mettre en œuvre une tentative d'apprentissage par renforcement sur un modèle déjà finement réglé pour l'inférence de longues chaînes avec un budget léger, fournissant ainsi à la communauté open source un outil puissant pour les modèles mathématiques. L'open source de ce modèle contribue à promouvoir l'application du traitement du langage naturel dans le domaine de l'éducation, en particulier pour la résolution de problèmes mathématiques, offrant aux chercheurs et développeurs une base de recherche et des outils pratiques précieux.