OLMo-2-1124-13B-DPO é um modelo de linguagem grande de 13B parâmetros, ajustado por meio de treinamento supervisionado e DPO, focado principalmente em inglês, com o objetivo de fornecer desempenho excepcional em diversas tarefas, como bate-papo, matemática, GSM8K e IFEval. Este modelo faz parte da série OLMo, criada para impulsionar a pesquisa científica em modelos de linguagem. O treinamento do modelo foi baseado no conjunto de dados Dolma, e o código, os checkpoints, os logs e os detalhes do treinamento são públicos.