rStar-Math es una investigación que demuestra que los modelos de lenguaje pequeños (SLM) pueden igualar o superar la capacidad de razonamiento matemático del modelo o1 de OpenAI, sin depender de modelos más avanzados. La investigación utiliza la búsqueda de Monte Carlo (MCTS) para lograr un "pensamiento profundo", donde un SLM de estrategia matemática busca durante las pruebas guiado por un modelo de recompensa de proceso basado en SLM. rStar-Math introduce tres métodos innovadores para abordar los desafíos de entrenar dos SLM, mejorando la capacidad de razonamiento matemático de los SLM a niveles de vanguardia a través de 4 rondas de autoevolución y millones de soluciones sintéticas. El modelo muestra una mejora significativa en el rendimiento en las pruebas de referencia de MATH y una excelente actuación en la competición AIME.