DeepSeek-R1-Distill-Qwen-7B est un modèle d'inférence optimisé par apprentissage par renforcement, distillé à partir de Qwen-7B. Il excelle dans les tâches mathématiques, de codage et de raisonnement, capable de générer des chaînes de raisonnement et des solutions de haute qualité. Grâce à l'apprentissage par renforcement à grande échelle et aux techniques de distillation de données, il améliore considérablement ses capacités et son efficacité en matière d'inférence, étant ainsi adapté aux scénarios nécessitant des raisonnements complexes et une analyse logique.