DeepScaleR-1.5B-Preview é um modelo de linguagem grande otimizado por aprendizado por reforço, focado em melhorar a capacidade de resolução de problemas matemáticos. O modelo, através de algoritmos de aprendizado por reforço distribuído, melhora significativamente a precisão em cenários de raciocínio com textos longos. Suas principais vantagens incluem estratégias de treinamento eficientes, melhoria significativa de desempenho e flexibilidade de código aberto. O modelo foi desenvolvido pelo Sky Computing Lab e pela equipe Berkeley AI Research da Universidade da Califórnia, Berkeley, com o objetivo de impulsionar o uso da inteligência artificial na educação, especialmente em educação matemática e olimpíadas de matemática. O modelo utiliza a licença MIT de código aberto e é totalmente gratuito para pesquisadores e desenvolvedores.