A Microsoft anunciou recentemente sua nova tecnologia rStar-Math, um método de raciocínio inovador que pode ser aplicado a modelos de linguagem pequenos (SLMs), melhorando significativamente seu desempenho em problemas matemáticos, até mesmo superando o modelo o1-preview da OpenAI em alguns casos. Esta tecnologia ainda está em fase de pesquisa, e o artigo de pesquisa foi publicado no arXiv.org, com oito autores da Microsoft, Universidade de Pequim e Universidade Tsinghua.
Nos testes, a tecnologia rStar-Math foi aplicada a vários modelos de código aberto pequenos, incluindo o modelo mini Phi-3 da Microsoft, o Qwen-1.5B (modelo de 1,5 bilhão de parâmetros) e o Qwen-7B (modelo de 7 bilhões de parâmetros) da Alibaba. Os resultados dos testes mostraram uma melhoria no desempenho de todos os modelos participantes, com o rStar-Math superando até mesmo o modelo anterior de ponta da OpenAI no teste de referência MATH.
A equipe de pesquisa planeja disponibilizar o código e os dados no Github, embora ainda esteja em revisão interna e não esteja publicamente disponível. A comunidade demonstrou grande interesse na tecnologia, com muitos membros elogiando seu método de raciocínio passo a passo combinado com a busca em árvore Monte Carlo (MCTS), considerando esta inovação com amplas perspectivas de aplicação em áreas como provas geométricas e raciocínio simbólico.
O núcleo do rStar-Math reside no uso da busca em árvore Monte Carlo, um método que simula o "pensamento profundo" humano, ajudando os modelos pequenos a evoluírem por meio do refinamento gradual das soluções para problemas matemáticos. Os pesquisadores não apenas aplicaram o MCTS, mas também exigiram que o modelo fornecesse simultaneamente etapas de raciocínio em linguagem natural e código Python durante a saída. Essa exigência promoveu o treinamento eficaz do modelo.
Após quatro rodadas de auto-evolução, o rStar-Math alcançou resultados notáveis em vários testes de referência. No teste de referência MATH, a precisão do modelo Qwen2.5-Math-7B aumentou de 58,8% para 90,0%, superando o o1-preview da OpenAI. Já na American Invitational Mathematics Examination (AIME), o modelo resolveu 53,3% dos problemas, um desempenho entre os 20% melhores dos competidores do ensino médio.
Nos últimos anos, a inovação em inteligência artificial tem se baseado principalmente no aumento contínuo dos parâmetros do modelo. No entanto, o alto custo associado levou a questionamentos sobre a sustentabilidade dessa expansão. A Microsoft, por meio do rStar-Math, demonstra o potencial dos modelos pequenos, destacando uma direção de alta eficiência. O lançamento dessa tecnologia indica que modelos pequenos especializados podem servir como alternativas viáveis a sistemas grandes, oferecendo capacidades de ponta para organizações médias e pesquisadores acadêmicos sem o ônus financeiro e ambiental considerável.
Link para o artigo: https://arxiv.org/pdf/2501.04519
Destaques:
🌟 A Microsoft lança a tecnologia rStar-Math, melhorando o desempenho de modelos pequenos em problemas matemáticos.
📊 A tecnologia já foi testada em vários modelos de código aberto, com alguns modelos superando o o1-preview da OpenAI.
🔍 A pesquisa planeja publicar o código no Github, atraindo a atenção da comunidade e mostrando o enorme potencial dos modelos pequenos.