Le 24 février, l'équipe 360 ZhiNao et l'Université de Pékin ont officiellement lancé Tiny-R1-32B-Preview, un modèle d'inférence de taille moyenne développé conjointement. Ce modèle, ne disposant que de 5 % des paramètres, a réussi à approcher les performances optimales de Deepseek-R1-671B, démontrant ainsi l'énorme potentiel des petits modèles dans le domaine de l'inférence efficace.

Les performances de ce modèle sont particulièrement remarquables dans plusieurs domaines clés. En mathématiques, Tiny-R1-32B-Preview a obtenu un score de 78,1 points à l'évaluation AIME2024, un score très proche des 79,8 points du modèle R1 original, et largement supérieur aux 70,0 points de Deepseek-R1-Distill-Llama-70B. En programmation et en sciences, le modèle a respectivement obtenu des scores de 61,6 et 65,0 points aux tests LiveCodeBench et GPQA-Diamond, surpassant largement le meilleur modèle open source actuel de 70B, Deepseek-R1-Distill-Llama-70B. Ce résultat démontre non seulement les performances exceptionnelles de Tiny-R1-32B-Preview, mais aussi une amélioration significative de l'efficacité grâce à une réduction considérable des coûts d'inférence (seulement 5% des paramètres).

微信截图_20250226080042.png

La technologie clé derrière cette percée est la stratégie « diviser pour régner et fusionner ». L'équipe de recherche a utilisé DeepSeek-R1 pour générer un volume important de données dans différents domaines, puis a entraîné séparément des modèles pour trois domaines verticaux : les mathématiques, la programmation et les sciences. Ensuite, grâce à l'outil Mergekit de l'équipe Arcee, les modèles ont été intelligemment fusionnés, dépassant ainsi les limites de performance d'un modèle unique et permettant une optimisation équilibrée des tâches multiples. Cette approche innovante a non seulement amélioré les performances du modèle, mais a également ouvert de nouvelles perspectives pour le développement futur des modèles d'inférence.

L'équipe de recherche conjointe de 360 ZhiNao et de l'Université de Pékin a déclaré que le succès de Tiny-R1-32B-Preview ne serait pas possible sans le soutien de la communauté open source. Ce modèle a bénéficié de la distillation de DeepSeek-R1, de l'entraînement incrémental de DeepSeek-R1-Distill-32B et de la fusion de modèles.

Pour promouvoir l'accès universel à la technologie, l'équipe de recherche s'engage à rendre publique l'intégralité du dépôt de modèles, y compris le rapport technique, le code d'entraînement et une partie des ensembles de données. Le dépôt de modèles est désormais disponible sur la plateforme Hugging Face à l'adresse suivante : https://huggingface.co/qihoo360/TinyR1-32B-Preview.