24 फ़रवरी को, 360 ब्रेन टीम और बीजिंग विश्वविद्यालय द्वारा संयुक्त रूप से विकसित मध्यम आकार का निष्कर्षण मॉडल Tiny-R1-32B-Preview आधिकारिक तौर पर जारी किया गया था। इस मॉडल ने केवल 5% पैरामीटर के साथ, Deepseek-R1-671B के पूर्ण प्रदर्शन के करीब पहुँचने में सफलता प्राप्त की, जिससे कुशल निष्कर्षण क्षेत्र में छोटे मॉडल की विशाल क्षमता का प्रदर्शन हुआ।
इस मॉडल ने कई महत्वपूर्ण क्षेत्रों में विशेष रूप से उत्कृष्ट प्रदर्शन किया है। गणित के क्षेत्र में, Tiny-R1-32B-Preview ने AIME2024 मूल्यांकन में 78.1 अंक प्राप्त किए, जो मूल R1 मॉडल के 79.8 अंकों के काफी करीब है, और Deepseek-R1-Distill-Llama-70B के 70.0 अंकों से कहीं अधिक है। प्रोग्रामिंग और विज्ञान के क्षेत्र में, इस मॉडल ने क्रमशः LiveCodeBench और GPQA-Diamond परीक्षणों में 61.6 अंक और 65.0 अंक प्राप्त किए, जो वर्तमान में सर्वश्रेष्ठ ओपन-सोर्स 70B मॉडल Deepseek-R1-Distill-Llama-70B से आगे है। इस उपलब्धि ने न केवल Tiny-R1-32B-Preview के प्रदर्शन में उत्कृष्टता को सिद्ध किया है, बल्कि केवल 5% पैरामीटर की आवश्यकता से निष्कर्षण लागत में भारी कमी आई है, जिससे दक्षता में एक बड़ी छलांग लगी है।
इस सफलता के पीछे की मुख्य तकनीक "विभाजन-सम्मिश्रण" रणनीति है। शोध दल ने DeepSeek-R1 से बड़ी मात्रा में क्षेत्र-विशिष्ट डेटा उत्पन्न किया, और गणित, प्रोग्रामिंग और विज्ञान के तीन प्रमुख क्षेत्रों के मॉडल को अलग-अलग प्रशिक्षित किया। इसके बाद, Arcee टीम के Mergekit उपकरण का उपयोग करके बुद्धिमान समेकन किया गया, जिससे एकल मॉडल की प्रदर्शन सीमा को पार किया गया और बहु-कार्यों का संतुलित अनुकूलन प्राप्त हुआ। इस नवीन तकनीकी पथ ने न केवल मॉडल के प्रदर्शन को बेहतर बनाया है, बल्कि भविष्य के निष्कर्षण मॉडल के विकास के लिए नए विचार भी प्रदान किए हैं।
360 ब्रेन टीम और बीजिंग विश्वविद्यालय की संयुक्त अनुसंधान टीम ने कहा कि Tiny-R1-32B-Preview की सफलता ओपन-सोर्स समुदाय के समर्थन के बिना संभव नहीं थी। यह मॉडल DeepSeek-R1 आसवन, DeepSeek-R1-Distill-32B वृद्धिशील प्रशिक्षण और मॉडल समेकन जैसी तकनीकों से लाभान्वित हुआ है।
तकनीकी पहुँच को बढ़ावा देने के लिए, अनुसंधान टीम ने पूर्ण मॉडल भंडार को सार्वजनिक करने का वादा किया है, जिसमें तकनीकी रिपोर्ट, प्रशिक्षण कोड और कुछ डेटासेट शामिल हैं। मॉडल भंडार Hugging Face प्लेटफ़ॉर्म पर ऑनलाइन हो गया है, जिसका पता https://huggingface.co/qihoo360/TinyR1-32B-Preview है।