Light-R1 é um projeto de código aberto desenvolvido pela Qihoo360, que visa treinar modelos de raciocínio de cadeia longa por meio de ajuste fino supervisionado em curso (SFT), otimização de preferência direta (DPO) e aprendizado por reforço (RL). O projeto alcança a capacidade de raciocínio de cadeia longa do zero por meio de conjuntos de dados despoluídos e métodos de treinamento eficientes. Suas principais vantagens incluem dados de treinamento de código aberto, método de treinamento de baixo custo e desempenho excepcional na área de raciocínio matemático. O contexto do projeto é baseado nas necessidades atuais de treinamento de modelos de raciocínio de cadeia longa, com o objetivo de fornecer um método de treinamento transparente e reprodutível. O projeto é atualmente de código aberto e gratuito, adequado para uso por instituições de pesquisa e desenvolvedores.