PRIME es una solución de aprendizaje por refuerzo online de código abierto que mejora la capacidad de razonamiento de los modelos de lenguaje mediante recompensas implícitas de proceso. La principal ventaja de esta tecnología radica en su capacidad para proporcionar señales de recompensa densas de manera eficiente sin depender de etiquetas de proceso explícitas, acelerando así el entrenamiento del modelo y mejorando su capacidad de razonamiento. PRIME ha demostrado un rendimiento excepcional en pruebas de referencia de concursos de matemáticas, superando a los modelos de lenguaje grandes existentes. Su información de fondo incluye su desarrollo conjunto por varios investigadores y la publicación del código y los conjuntos de datos correspondientes en GitHub. PRIME está diseñado para proporcionar un potente soporte de modelos a usuarios que necesitan realizar tareas de razonamiento complejas.