EurusPRM-Etapa1 forma parte del proyecto PRIME-RL y tiene como objetivo mejorar la capacidad de razonamiento de los modelos generativos mediante recompensas de proceso implícito. Este modelo utiliza un mecanismo de recompensas de proceso implícito que, sin necesidad de etiquetas de proceso adicionales, permite obtener recompensas durante el proceso de razonamiento. Sus principales ventajas son la mejora efectiva del rendimiento de los modelos generativos en tareas complejas y la reducción de los costes de etiquetado. Este modelo es adecuado para escenarios que requieren capacidades complejas de razonamiento y generación, como la resolución de problemas matemáticos y la generación de lenguaje natural.