Recentemente, a equipe do 360 ZhiNao anunciou o sucesso na replicação dos resultados de aprendizado por reforço do DeepSeek e lançou oficialmente o modelo de raciocínio de código aberto Light-R1-14B-DS. O desempenho deste modelo supera o DeepSeek-R1-Distill-Llama-70B e o DeepSeek-R1-Distill-Qwen-32B, tornando-se o primeiro modelo do setor com 14B de parâmetros a alcançar resultados de aprendizado por reforço, melhorando significativamente sua capacidade de raciocínio matemático e superando a maioria dos modelos de 32B.
Em comparação com o DeepSeek-R1-14B, o Light-R1-14B-DS* se destaca em tarefas de competição matemática: obteve uma melhoria de 4,3 pontos no teste AIME24 e impressionantes 10 pontos no AIME25. Além disso, alcançou uma excelente pontuação de 61,7 pontos na tarefa de raciocínio matemático GPQA.
Para alcançar esse avanço, a equipe do 360 ZhiNao empregou dois métodos inovadores de treinamento. O primeiro é o Curriculum SFT (ajuste fino supervisionado gradual), que treina o modelo em etapas, passando de problemas matemáticos simples para problemas complexos, aumentando sua capacidade de raciocínio lógico. O segundo é o aprendizado por reforço (RL), aplicado com sucesso pela primeira vez em um modelo de raciocínio de 14B, não apenas melhorando a precisão do raciocínio, mas também garantindo que outras habilidades permaneçam essencialmente intactas.
Este lançamento inclui não apenas o modelo em si, mas também os dados SFT, o código e o relatório técnico de código aberto, fornecendo recursos valiosos para a indústria. Esse resultado marca um grande avanço em aprendizado por reforço para modelos de menor escala, podendo impulsionar a disseminação e o desenvolvimento da capacidade de raciocínio da IA.
Endereço do projeto: https://github.com/Qihoo360/Light-R1
Endereço do modelo: https://huggingface.co/qihoo360/Light-R1-14B-DS
Endereço dos dados: https://huggingface.co/datasets/qihoo360/Light-R1-SFTData