本日、阿里雲通義チームは、全く新しい数学的推論プロセス報酬モデルであるQwen2.5-Math-PRMを発表しました。このモデルは72Bと7Bの2つのサイズを提供しており、いずれも同種のオープンソースのプロセス報酬モデルを大幅に上回る性能を示し、特に推論エラーの識別において顕著な成果を上げています。
Qwen2.5-Math-PRMの7Bバージョンは、驚くべきことに業界で広く利用されているGPT-4oを凌駕しており、これは阿里雲が推論モデルの研究開発において重要な一歩を踏み出したことを示しています。モデルの数学的推論における性能を包括的に評価するために、通義チームはステップレベルの評価基準であるProcessBenchも初めてオープンソース化しました。この評価基準は3400個の数学問題のテストケースを網羅しており、国際数学オリンピックの難問も含まれています。各ケースは人間の専門家によって詳細な推論プロセスが注釈されており、評価の科学性と包括性を確保しています。
ProcessBenchにおけるQwen2.5-Math-PRMの性能評価を通じて、研究チームは、72Bと7Bのいずれのサイズのモデルも優れた性能を示すことを発見しました。特に7Bバージョンは、同サイズのオープンソースモデルを凌駕するだけでなく、いくつかの点でクローズドソースのGPT-4o-0806をも上回っています。これは、プロセス報酬モデル(PRM)が推論の信頼性を向上させる上で大きな可能性を秘めていることを証明しており、将来の推論プロセス監視技術の発展に新たな視点を提供します。
阿里雲通義チームによるこの革新的な取り組みは、人工知能推論技術の進歩を促進するだけでなく、業界内の他の開発者にも貴重な参考資料を提供します。オープンソース化によって、通義チームはより多くの研究者と経験を共有し、業界全体の技術進歩を促進したいと考えています。