Heute hat das Alibaba Cloud Tongyi-Team das neue Belohnungsmodell für mathematische Schlussfolgerungsprozesse, Qwen2.5-Math-PRM, offiziell veröffentlicht. Das Modell ist in zwei Größen verfügbar: 72B und 7B. Beide Versionen übertreffen deutlich ähnliche Open-Source-Belohnungsmodelle, insbesondere bei der Erkennung von Fehlern in der Argumentation.

Die 7B-Version von Qwen2.5-Math-PRM übertrifft überraschenderweise das beliebte GPT-4o, ein Meilenstein in der Entwicklung von Schlussfolgerungsmodellen bei Alibaba Cloud. Um die Leistung des Modells in der mathematischen Schlussfolgerung umfassend zu bewerten, hat das Tongyi-Team auch den ersten schrittweisen Bewertungsstandard, ProcessBench, veröffentlicht. Dieser Standard umfasst 3400 Testfälle für mathematische Probleme, darunter Aufgaben mit der Schwierigkeit der Internationalen Mathematikolympiade. Jeder Fall wurde von menschlichen Experten mit detaillierten Schlussfolgerungsprozessen annotiert, um die wissenschaftliche Gültigkeit und Vollständigkeit der Bewertung zu gewährleisten.

image.png

Die Bewertung von Qwen2.5-Math-PRM auf ProcessBench ergab, dass sowohl die 72B- als auch die 7B-Version hervorragende Leistungen erbrachten. Insbesondere die 7B-Version übertrifft nicht nur Open-Source-Modelle gleicher Größe, sondern in einigen Aspekten sogar das proprietäre GPT-4o-0806. Dies beweist das enorme Potenzial von Belohnungsmodellen für Schlussfolgerungsprozesse (PRM) zur Verbesserung der Zuverlässigkeit von Schlussfolgerungen und bietet neue Ansätze für die zukünftige Entwicklung von Überwachungstechnologien für Schlussfolgerungsprozesse.

image.png

Die innovative Arbeit des Alibaba Cloud Tongyi-Teams fördert nicht nur den Fortschritt der KI-Schlussfolgerungstechnologie, sondern bietet auch wertvolle Erkenntnisse für Entwickler in der Branche. Durch die Open-Source-Veröffentlichung möchte das Tongyi-Team Erfahrungen mit anderen Forschern teilen und den technischen Fortschritt der gesamten Branche vorantreiben.