EurusPRM-Stage2 ist ein fortschrittliches Reinforcement-Learning-Modell, das den Inferenzprozess von generativen Modellen durch implizite Prozessbelohnungen optimiert. Das Modell nutzt das Log-Likelihood-Verhältnis von kausalen Sprachmodellen zur Berechnung der Prozessbelohnungen, wodurch die Inferenzfähigkeit des Modells ohne zusätzliche Annotationskosten verbessert wird. Der Hauptvorteil besteht darin, dass implizit Prozessbelohnungen gelernt werden können, indem nur Reaktionslevel-Labels verwendet werden, wodurch die Genauigkeit und Zuverlässigkeit des generativen Modells gesteigert werden. Das Modell zeigt hervorragende Ergebnisse bei Aufgaben wie dem Lösen mathematischer Probleme und eignet sich für Szenarien, die komplexes Denken und Entscheidungsfindung erfordern.