Light-R1-14B-DS
Um modelo matemático de código aberto com 14 bilhões de parâmetros, treinado por meio de aprendizado por reforço, com desempenho excepcional.
Produto ComumProdutividadeAprendizado por ReforçoModelo Matemático
Light-R1-14B-DS é um modelo matemático de código aberto desenvolvido pela Qihoo 360 Technology Co., Ltd. Este modelo é treinado usando aprendizado por reforço baseado no DeepSeek-R1-Distill-Qwen-14B, alcançando pontuações altas de 74,0 e 60,2 nos benchmarks de competição matemática AIME24 e AIME25, respectivamente, superando muitos modelos com 32 bilhões de parâmetros. Ele obteve sucesso em uma tentativa de aprendizado por reforço em um modelo de ajuste fino de raciocínio de cadeia longa com orçamento leve, fornecendo à comunidade de código aberto uma poderosa ferramenta de modelo matemático. A disponibilização em código aberto deste modelo ajudará a impulsionar o uso do processamento de linguagem natural na educação, especialmente na resolução de problemas matemáticos, fornecendo aos pesquisadores e desenvolvedores uma base de pesquisa e ferramentas práticas valiosas.
Light-R1-14B-DS Situação do Tráfego Mais Recente
Total de Visitas Mensais
29742941
Taxa de Rejeição
44.20%
Média de Páginas por Visita
5.9
Duração Média da Visita
00:04:44