Das Alibaba Qwen-Team hat kürzlich einen Forschungsartikel mit dem Titel „Entwicklungserfahrungen und -lektionen von Prozessbelohnungsmodellen in der mathematischen Inferenz“ veröffentlicht und zwei neue Modelle der Qwen2.5-Math-PRM-Serie mit 7B bzw. 72B Parametern vorgestellt. Diese Modelle brechen die Grenzen bestehender PRM-Frameworks im Bereich der mathematischen Inferenz und verbessern durch innovative Technologien die Genauigkeit und die Generalisierungsfähigkeit von Inferenzmodellen deutlich.

Mathematische Inferenz stellt eine große Herausforderung für große Sprachmodelle (LLMs) dar, insbesondere da Fehler in Zwischenschritten die Genauigkeit des Endergebnisses beeinträchtigen können. Dies ist besonders problematisch in Bereichen wie Bildung und wissenschaftlichem Rechnen, die hohe Genauigkeitsanforderungen stellen. Traditionelle Bewertungsmethoden wie die Best-of-N(BoN)-Strategie erfassen die Komplexität des Inferenzprozesses nicht ausreichend. Daher wurden Prozessbelohnungsmodelle (PRMs) entwickelt, um durch die Bewertung der Richtigkeit von Zwischenschritten eine detailliertere Aufsicht zu ermöglichen.

Der Aufbau effizienter PRMs ist jedoch mit Herausforderungen bei der Datenannotation und der Bewertungsmethoden verbunden, die von bestehenden Modellen nicht vollständig gelöst werden konnten. Daher wird ein robusteres, prozessgesteuertes Inferenzmodell benötigt.

QQ20250116-104124.png

Die innovative Methode des Qwen-Teams kombiniert die Monte-Carlo-(MC)-Schätzung mit dem Mechanismus „LLM als Beurteiler“. Dieser kombinierte Ansatz verbessert die Qualität der schrittweisen Annotation, sodass PRMs Fehler in der mathematischen Inferenz effektiver erkennen und reduzieren können. Durch diese Technologie zeigen die Modelle der Qwen2.5-Math-PRM-Serie in Benchmarks wie PROCESSBENCH hervorragende Ergebnisse, insbesondere bei der Erkennung von Fehlern in Zwischenschritten.

Konsensfilterung: Daten werden nur dann beibehalten, wenn sowohl die MC-Schätzung als auch der LLM als Beurteiler der Richtigkeit des Schrittes zustimmen, wodurch das Rauschen während des Trainings deutlich reduziert wird. Hartes Labeling: Durch den doppelten Mechanismus verifizierte, deterministische Labels verbessern die Fähigkeit des Modells, zwischen gültigen und ungültigen Inferenzschritten zu unterscheiden. Effiziente Datennutzung: Die Konsensfilterstrategie, die die MC-Schätzung mit dem LLM als Beurteiler kombiniert, stellt qualitativ hochwertige Daten sicher und bleibt skalierbar.

Diese Innovationen haben dazu beigetragen, dass die Qwen2.5-Math-PRM-Modelle nicht nur ihre Genauigkeit verbessert haben, sondern auch ihre Leistung in Anwendungen wie automatisierter Nachhilfe und der Lösung komplexer Probleme gesteigert haben.

Die Qwen2.5-Math-PRM-Serie erzielt hervorragende Ergebnisse bei mehreren Bewertungsmetriken. Beispielsweise erreicht das Qwen2.5-Math-PRM-72B-Modell einen F1-Score von 78,3 % und übertrifft damit viele Open-Source-Alternativen. Insbesondere bei Aufgaben, die die schrittweise Erkennung von Fehlern erfordern, übertrifft es proprietäre Modelle wie GPT-4-0806.

Der Konsensfiltermechanismus reduziert das Datenrauschen um etwa 60 % und verbessert die Qualität der Trainingsdaten deutlich. Darüber hinaus betont Qwen2.5-Math-PRM die schrittweise Bewertung im Gegensatz zur traditionellen, ergebnisbasierten BoN-Strategie. Dies behebt das Problem früherer Modelle, die sich zu sehr auf die endgültige Antwort verlassen und die Genauigkeit der Inferenz vernachlässigen.

Die Einführung der Qwen2.5-Math-PRM-Serie markiert einen bedeutenden Fortschritt im Bereich der mathematischen Inferenz. Durch die Lösung von Herausforderungen bei der PRM-Entwicklung, wie z. B. das Rauschen bei der Datenannotation und die Abweichung zwischen Prozess und Ergebnis, bietet das Qwen-Team einen praktikablen Rahmen zur Verbesserung der Genauigkeit und Zuverlässigkeit der Inferenz. Mit der Weiterentwicklung dieser Technologie wird erwartet, dass PRM-Modelle in Zukunft eine wichtige Rolle in einer breiteren Palette von KI-Anwendungen spielen und die Zuverlässigkeit und Effizienz von maschinellen Inferenzsystemen verbessern werden.