Microsoft a récemment annoncé sa nouvelle technologie rStar-Math, une méthode de raisonnement innovante applicable aux petits modèles linguistiques (SLM), améliorant considérablement leurs performances en mathématiques, dépassant même, dans certains cas, le modèle o1-preview d'OpenAI. Cette technologie est encore au stade de la recherche, et l'article scientifique correspondant a été publié sur arXiv.org par huit auteurs de Microsoft, de l'Université de Pékin et de l'Université Tsinghua.
Lors des tests, la technologie rStar-Math a été appliquée à plusieurs petits modèles open source, notamment le mini-modèle Phi-3 de Microsoft, Qwen-1.5B (1,5 milliard de paramètres) et Qwen-7B (7 milliards de paramètres) d'Alibaba. Les résultats ont montré une amélioration des performances de tous les modèles testés, rStar-Math surpassant même les modèles précédents d'OpenAI sur le benchmark MATH.
L'équipe de recherche prévoit de publier le code et les données sur Github, bien que cela soit actuellement en cours d'examen interne et non encore publiquement disponible. La communauté a manifesté un vif intérêt pour cette technologie, de nombreux membres saluant sa méthode de raisonnement progressif combinée à la recherche arborescente de Monte-Carlo (MCTS), estimant que cette innovation a un large potentiel d'application dans des domaines tels que les démonstrations géométriques et le raisonnement symbolique.
rStar-Math repose sur l'utilisation de la recherche arborescente de Monte-Carlo, une méthode simulant la « réflexion approfondie » humaine, aidant les petits modèles à évoluer par eux-mêmes en affinant progressivement les solutions aux problèmes mathématiques. Les chercheurs n'ont pas simplement appliqué le MCTS, mais ont également demandé aux modèles de fournir simultanément les étapes de raisonnement en langage naturel et le code Python lors de la génération de résultats. Cette exigence a favorisé un entraînement efficace des modèles.
Après quatre cycles d'auto-amélioration, rStar-Math a obtenu des résultats remarquables sur plusieurs benchmarks. Sur le benchmark MATH, la précision du modèle Qwen2.5-Math-7B est passée de 58,8 % à 90 %, surpassant le modèle o1-preview d'OpenAI. Lors de l'American Invitational Mathematics Examination (AIME), le modèle a résolu 53,3 % des problèmes, se classant dans les 20 % meilleurs des concurrents du lycée.
Ces dernières années, les innovations en matière d'intelligence artificielle reposaient principalement sur l'augmentation constante du nombre de paramètres des modèles. Cependant, le coût élevé qui en résulte a conduit à remettre en question la durabilité de cette approche. Microsoft, grâce à rStar-Math, a démontré le potentiel des petits modèles, soulignant une voie plus efficace. Le lancement de cette technologie montre que des petits modèles spécialisés peuvent constituer une alternative valable aux grands systèmes, offrant des capacités de pointe aux organisations de taille moyenne et aux chercheurs universitaires, sans les lourds fardeaux financiers et environnementaux.
Lien vers l'article : https://arxiv.org/pdf/2501.04519
Points clés :
🌟 Microsoft lance la technologie rStar-Math, améliorant les performances des petits modèles sur les problèmes mathématiques.
📊 Cette technologie a été testée sur plusieurs modèles open source, dont certains ont surpassé le modèle o1-preview d'OpenAI.
🔍 La recherche prévoit la publication du code sur Github, suscitant l'intérêt de la communauté et démontrant l'énorme potentiel des petits modèles.