Forscher von DeepSeek und der Tsinghua-Universität haben kürzlich eine neue Arbeit veröffentlicht, die Skalierungsmethoden für die Inferenz von Belohnungsmodellen untersucht und DeepSeek R2 scheinbar einen Schritt näher gebracht hat. Derzeit wird Reinforcement Learning (Verstärkendes Lernen) in der groß angelegten Nachschulungsphase großer Sprachmodelle weit verbreitet eingesetzt, steht aber vor der Herausforderung, genaue Belohnungssignale für diese Modelle zu erhalten.

image.png

Die Forscher stellten fest, dass die Verwendung eines punktweisen generativen Belohnungsmodells (GRM) die Anpassungsfähigkeit des Modells und die Skalierbarkeit in der Inferenzphase verbessert. Zu diesem Zweck schlagen sie die Selbst-Prinzipien-Bewertung-Optimierungs-(SPCT)-Lernmethode vor, mit der das DeepSeek-GRM-Modell trainiert wird, z. B. DeepSeek-GRM-27B, das auf Gemma-2-27B trainiert wurde. Experimente zeigen, dass SPCT die Qualität und Skalierbarkeit von GRM deutlich verbessert und in mehreren Benchmark-Tests bestehende Methoden und Modelle übertrifft. Darüber hinaus führten die Forscher ein Meta-Belohnungsmodell (Meta-RM) ein, um den Abstimmungsprozess zu leiten und die Skalierbarkeit zu verbessern.

image.png

Die SPCT-Methode besteht aus zwei Phasen. Erstens dient ein ablehnendes Feintuning als Cold-Start-Phase, um GRM an verschiedene Eingabetypen anzupassen und Prinzipien und Bewertungsinhalte im richtigen Format zu generieren. Die Forscher verwenden ein punktweises GRM und führen promptbasiertes Sampling ein, um die Übereinstimmung zwischen vorhergesagter und tatsächlicher Belohnung zu verbessern. Zweitens wird in der regelbasierten Online-Verstärkungslernphase eine regelbasierte Ergebnisbelohnung verwendet, um GRM zur Generierung besserer Prinzipien und Bewertungsinhalte zu ermutigen und die Skalierbarkeit in der Inferenzphase zu verbessern.

Um die Leistung von DeepSeek-GRM zu verbessern, untersuchte das Forschungsteam Skalierungsstrategien während der Inferenz. Durch die Abstimmung mit generierten Belohnungen wird der Belohnungsraum erweitert und die Qualität der endgültigen Belohnung verbessert. Gleichzeitig wird ein Meta-Belohnungsmodell trainiert, um die Abstimmung zu leiten und niedrigwertige Stichproben herauszufiltern. Die Ergebnisse zeigen, dass DeepSeek-GRM-27B eine insgesamt hervorragende Leistung aufweist, die durch Skalierung während der Inferenz weiter verbessert werden kann. Ablationsstudien zeigen, dass das Online-Training für GRM wichtig ist und die Prinzipiengenerierung einen entscheidenden Einfluss auf die Modellleistung hat. Darüber hinaus belegt die Studie die Wirksamkeit der Skalierung von DeepSeek-GRM-27B während der Inferenz, die die bloße Vergrößerung der Modellgröße übertrifft.

Wichtigste Punkte:

💡DeepSeek und die Tsinghua-Forscher schlagen die Selbst-Prinzipien-Bewertung-Optimierungs-(SPCT)-Methode und die Einführung eines Meta-Belohnungsmodells (Meta-RM) vor, um die Skalierbarkeit von Belohnungsmodellen während der Inferenz zu verbessern und die DeepSeek-GRM-Modellreihe zu erstellen.

🧪SPCT besteht aus zwei Phasen: ablehnendem Feintuning und regelbasiertem Online-Verstärkungslernen. Dies verbessert die Qualität und Skalierbarkeit von GRM, wodurch DeepSeek-GRM-27B in Benchmark-Tests hervorragende Ergebnisse erzielt.

📈Das Forschungsteam untersucht Skalierungsstrategien während der Inferenz. Durch die Abstimmung mit generierten Belohnungen und die Führung der Abstimmung durch ein Meta-Belohnungsmodell wird die Leistung verbessert. Die Studie belegt die Wirksamkeit der Skalierung von DeepSeek-GRM-27B während der Inferenz, die die bloße Vergrößerung der Modellgröße übertrifft.

论文地址:

https://arxiv.org/abs/2504.02495