Recientemente, el equipo de 360 ZhiNao anunció que ha reproducido con éxito los resultados del aprendizaje por refuerzo de DeepSeek y ha lanzado oficialmente el modelo de inferencia de código abierto Light-R1-14B-DS. El rendimiento de este modelo supera al de DeepSeek-R1-Distill-Llama-70B y DeepSeek-R1-Distill-Qwen-32B, convirtiéndose en el primer modelo de la industria en lograr un aprendizaje por refuerzo con 14B parámetros, mejorando significativamente su capacidad de razonamiento matemático y obteniendo resultados superiores a la mayoría de los modelos de 32B parámetros.
En comparación con DeepSeek-R1-14B, Light-R1-14B-DS* destaca en las tareas de concursos matemáticos: mejoró en 4.3 puntos en la prueba AIME24 y en 10 puntos en la AIME25. Además, obtuvo una excelente puntuación de 61.7 en la tarea de razonamiento matemático GPQA.
Para lograr este avance, el equipo de 360 ZhiNao empleó dos métodos de entrenamiento innovadores. El primero es el Curriculum SFT (ajuste supervisado progresivo), que mediante un entrenamiento por etapas, permite al modelo pasar gradualmente de problemas matemáticos sencillos a problemas complejos, mejorando aún más su capacidad de razonamiento lógico. El segundo es el aprendizaje por refuerzo (RL), aplicado con éxito por primera vez en un modelo de inferencia de 14B parámetros, lo que no solo mejora la precisión de la inferencia, sino que también garantiza que otras habilidades permanezcan prácticamente intactas.
Este lanzamiento incluye no solo el modelo en sí, sino también los datos SFT, el código y el informe técnico de código abierto, proporcionando valiosos recursos a la industria. Este logro marca un importante avance en el campo del aprendizaje por refuerzo para modelos de tamaño mediano, y podría impulsar una mayor difusión y desarrollo de la capacidad de razonamiento de la IA.
Dirección del proyecto: https://github.com/Qihoo360/Light-R1
Dirección del modelo: https://huggingface.co/qihoo360/Light-R1-14B-DS
Dirección de los datos: https://huggingface.co/datasets/qihoo360/Light-R1-SFTData