rStar-Mathは、より高度なモデルに依存することなく、小型言語モデル(SLM)がOpenAIのo1モデルに匹敵、あるいはそれを上回る数学的推論能力を獲得できることを証明することを目的とした研究です。本研究は、モンテカルロ木探索(MCTS)を用いて「深層思考」を実現しており、SLMベースのプロセス報酬モデルの指導の下で、数学戦略SLMがテスト時に探索を行います。rStar-Mathは、2つのSLMのトレーニングという課題に対処するため、3つの革新的な手法を導入し、4回の自己進化と数百万の合成解を通して、SLMの数学的推論能力を最先端レベルにまで向上させました。このモデルはMATHベンチマークテストで性能を大幅に向上させ、AIMEコンテストでも優れた成績を収めました。