Récemment, l'équipe 360 ZhiNao a annoncé avoir reproduit avec succès les résultats d'apprentissage par renforcement de DeepSeek et a officiellement publié le modèle d'inférence open source Light-R1-14B-DS. Les performances de ce modèle surpassent celles de DeepSeek-R1-Distill-Llama-70B et DeepSeek-R1-Distill-Qwen-32B, devenant ainsi le premier modèle de l'industrie à atteindre des résultats d'apprentissage par renforcement avec une taille de 14 milliards de paramètres. Il améliore considérablement les capacités de raisonnement mathématique, obtenant des scores supérieurs à la plupart des modèles de 32 milliards de paramètres.
Comparé à DeepSeek-R1-14B, Light-R1-14B-DS* se distingue particulièrement dans les tâches de concours mathématiques : il améliore son score de 4,3 points au test AIME24 et de 10 points au test AIME25. De plus, il obtient un excellent score de 61,7 points à la tâche de raisonnement mathématique GPQA.
Pour réaliser cette percée, l'équipe 360 ZhiNao a utilisé deux méthodes d'entraînement innovantes. La première est le Curriculum SFT (apprentissage supervisé progressif), qui permet au modèle de passer progressivement de problèmes mathématiques simples à des problèmes complexes, renforçant ainsi ses capacités de raisonnement logique. La seconde est l'apprentissage par renforcement (RL), appliqué pour la première fois avec succès à un modèle d'inférence de 14 milliards de paramètres, améliorant non seulement la précision de l'inférence, mais aussi préservant les autres compétences.
Cette publication inclut non seulement le modèle lui-même, mais aussi les données SFT, le code et le rapport technique en open source, offrant ainsi des ressources précieuses à la communauté. Ce résultat marque une avancée majeure des modèles de petite et moyenne taille dans le domaine de l'apprentissage par renforcement et pourrait favoriser la diffusion et le développement des capacités d'inférence de l'IA.
Adresse du projet : https://github.com/Qihoo360/Light-R1
Adresse du modèle : https://huggingface.co/qihoo360/Light-R1-14B-DS
Adresse des données : https://huggingface.co/datasets/qihoo360/Light-R1-SFTData