O OLMo-2-1124-7B-RM é um modelo de linguagem grande desenvolvido em conjunto pela Hugging Face e Allen AI, focado em tarefas de geração e classificação de texto. Construído com base em 7 bilhões de parâmetros, ele foi projetado para lidar com diversas tarefas de linguagem, incluindo bate-papo, resolução de problemas matemáticos e classificação de texto. É um modelo de recompensa treinado com o conjunto de dados Tülu 3 e um conjunto de dados de preferência, usado para inicializar o modelo de valor no treinamento RLVR. O lançamento da série de modelos OLMo visa impulsionar a pesquisa científica em modelos de linguagem, promovendo a transparência e acessibilidade do modelo através da disponibilização do código aberto, checkpoints, logs e detalhes de treinamento relevantes.