24 फ़रवरी को, 360 ब्रेन टीम और बीजिंग विश्वविद्यालय द्वारा संयुक्त रूप से विकसित मध्यम आकार का निष्कर्षण मॉडल Tiny-R1-32B-Preview आधिकारिक तौर पर जारी किया गया था। इस मॉडल ने केवल 5% पैरामीटर के साथ, Deepseek-R1-671B के पूर्ण प्रदर्शन के करीब पहुँचने में सफलता प्राप्त की, जिससे कुशल निष्कर्षण क्षेत्र में छोटे मॉडल की विशाल क्षमता का प्रदर्शन हुआ।

इस मॉडल ने कई महत्वपूर्ण क्षेत्रों में विशेष रूप से उत्कृष्ट प्रदर्शन किया है। गणित के क्षेत्र में, Tiny-R1-32B-Preview ने AIME2024 मूल्यांकन में 78.1 अंक प्राप्त किए, जो मूल R1 मॉडल के 79.8 अंकों के काफी करीब है, और Deepseek-R1-Distill-Llama-70B के 70.0 अंकों से कहीं अधिक है। प्रोग्रामिंग और विज्ञान के क्षेत्र में, इस मॉडल ने क्रमशः LiveCodeBench और GPQA-Diamond परीक्षणों में 61.6 अंक और 65.0 अंक प्राप्त किए, जो वर्तमान में सर्वश्रेष्ठ ओपन-सोर्स 70B मॉडल Deepseek-R1-Distill-Llama-70B से आगे है। इस उपलब्धि ने न केवल Tiny-R1-32B-Preview के प्रदर्शन में उत्कृष्टता को सिद्ध किया है, बल्कि केवल 5% पैरामीटर की आवश्यकता से निष्कर्षण लागत में भारी कमी आई है, जिससे दक्षता में एक बड़ी छलांग लगी है।

微信截图_20250226080042.png

इस सफलता के पीछे की मुख्य तकनीक "विभाजन-सम्मिश्रण" रणनीति है। शोध दल ने DeepSeek-R1 से बड़ी मात्रा में क्षेत्र-विशिष्ट डेटा उत्पन्न किया, और गणित, प्रोग्रामिंग और विज्ञान के तीन प्रमुख क्षेत्रों के मॉडल को अलग-अलग प्रशिक्षित किया। इसके बाद, Arcee टीम के Mergekit उपकरण का उपयोग करके बुद्धिमान समेकन किया गया, जिससे एकल मॉडल की प्रदर्शन सीमा को पार किया गया और बहु-कार्यों का संतुलित अनुकूलन प्राप्त हुआ। इस नवीन तकनीकी पथ ने न केवल मॉडल के प्रदर्शन को बेहतर बनाया है, बल्कि भविष्य के निष्कर्षण मॉडल के विकास के लिए नए विचार भी प्रदान किए हैं।

360 ब्रेन टीम और बीजिंग विश्वविद्यालय की संयुक्त अनुसंधान टीम ने कहा कि Tiny-R1-32B-Preview की सफलता ओपन-सोर्स समुदाय के समर्थन के बिना संभव नहीं थी। यह मॉडल DeepSeek-R1 आसवन, DeepSeek-R1-Distill-32B वृद्धिशील प्रशिक्षण और मॉडल समेकन जैसी तकनीकों से लाभान्वित हुआ है।

तकनीकी पहुँच को बढ़ावा देने के लिए, अनुसंधान टीम ने पूर्ण मॉडल भंडार को सार्वजनिक करने का वादा किया है, जिसमें तकनीकी रिपोर्ट, प्रशिक्षण कोड और कुछ डेटासेट शामिल हैं। मॉडल भंडार Hugging Face प्लेटफ़ॉर्म पर ऑनलाइन हो गया है, जिसका पता https://huggingface.co/qihoo360/TinyR1-32B-Preview है।