Microsoft ha anunciado recientemente su nueva tecnología rStar-Math, un innovador método de razonamiento aplicable a modelos de lenguaje pequeños (SLM) que mejora significativamente su rendimiento en problemas matemáticos, incluso superando en algunos casos al modelo o1-preview de OpenAI. Esta tecnología aún se encuentra en fase de investigación, y el artículo correspondiente se ha publicado en arXiv.org, fruto del trabajo conjunto de ocho autores de Microsoft, la Universidad de Pekín y la Universidad Tsinghua.
En las pruebas, la tecnología rStar-Math se aplicó a varios modelos pequeños de código abierto, incluyendo el mini-modelo Phi-3 de Microsoft, Qwen-1.5B (1.500 millones de parámetros) y Qwen-7B (7.000 millones de parámetros) de Alibaba. Los resultados mostraron una mejora en el rendimiento de todos los modelos participantes, incluso superando en el benchmark MATH al modelo previamente más avanzado de OpenAI.
El equipo de investigación planea publicar el código y los datos en Github, aunque actualmente están en revisión interna y aún no están disponibles públicamente. La comunidad ha mostrado un gran interés en esta tecnología, y muchos miembros elogian su método de razonamiento paso a paso combinado con la búsqueda de árbol de Montecarlo (MCTS), considerando que esta innovación tiene un amplio potencial en áreas como las demostraciones geométricas y el razonamiento simbólico.
El núcleo de rStar-Math reside en el uso de la búsqueda de árbol de Montecarlo, un método que simula el "pensamiento profundo" humano, ayudando a los modelos pequeños a evolucionar por sí mismos mediante el refinamiento gradual de las soluciones a problemas matemáticos. Los investigadores no solo aplicaron MCTS, sino que también exigieron que el modelo proporcionara simultáneamente pasos de razonamiento en lenguaje natural y código Python durante el proceso de salida. Este requisito promovió un entrenamiento eficaz del modelo.
Después de cuatro rondas de autoevolución, rStar-Math logró resultados notables en varias pruebas de referencia. En la prueba de referencia MATH, la precisión del modelo Qwen2.5-Math-7B aumentó del 58,8% al 90,0%, superando al o1-preview de OpenAI. En la American Invitational Mathematics Examination (AIME), el modelo resolvió el 53,3% de los problemas, situándose entre el 20% superior de los competidores de secundaria.
En los últimos años, la innovación en inteligencia artificial ha dependido principalmente del aumento constante de los parámetros del modelo; sin embargo, el alto coste asociado ha llevado a cuestionar la sostenibilidad de esta expansión. Microsoft, a través de rStar-Math, ha demostrado el potencial de los modelos pequeños, destacando una dirección de alta eficiencia. El lanzamiento de esta tecnología indica que los modelos pequeños especializados pueden servir como una alternativa viable a los sistemas grandes, ofreciendo capacidades de vanguardia a organizaciones medianas e investigadores académicos sin la enorme carga financiera y ambiental.
Enlace al artículo: https://arxiv.org/pdf/2501.04519
Puntos clave:
🌟 Microsoft presenta la tecnología rStar-Math, mejorando el rendimiento de los modelos pequeños en problemas matemáticos.
📊 Esta tecnología se ha probado en varios modelos de código abierto, superando en algunos casos al o1-preview de OpenAI.
🔍 Se planea publicar el código en Github, atrayendo la atención de la comunidad y mostrando el enorme potencial de los modelos pequeños.