OLMo-2-1124-7B-RM es un modelo de lenguaje grande desarrollado conjuntamente por Hugging Face y Allen AI, enfocado en tareas de generación y clasificación de texto. Construido con 7B parámetros, está diseñado para manejar diversas tareas lingüísticas, incluyendo chat, resolución de problemas matemáticos y clasificación de texto. Es un modelo de recompensa entrenado con el conjunto de datos Tülu 3 y un conjunto de datos de preferencias, utilizado para inicializar el modelo de valor en el entrenamiento RLVR. El lanzamiento de la serie de modelos OLMo tiene como objetivo impulsar la investigación científica en modelos de lenguaje, promoviendo la transparencia y accesibilidad a través de la apertura del código, los checkpoints, los logs y los detalles de entrenamiento.