हाल ही में, 360智脑 टीम ने Deepseek के सुदृढीकरण अधिगम प्रभाव को सफलतापूर्वक दोहराने की घोषणा की और आधिकारिक तौर पर ओपन सोर्स अनुमान मॉडल Light-R1-14B-DS जारी किया। इस मॉडल का प्रदर्शन DeepSeek-R1-Distill-Llama-70B और DeepSeek-R1-Distill-Qwen-32B से बेहतर है, जो 14B पैरामीटर स्केल पर सुदृढीकरण अधिगम प्रभाव को प्राप्त करने वाला उद्योग का पहला मॉडल है, जिससे गणितीय तर्क क्षमता में उल्लेखनीय वृद्धि हुई है, और स्कोर अधिकांश 32B स्तर के मॉडल से अधिक है।

QQ20250314-100519.png

DeepSeek-R1-14B की तुलना में, Light-R1-14B-DS* गणित प्रतियोगिता कार्यों में उत्कृष्ट प्रदर्शन करता है: AIME24 परीक्षण में 4.3 अंक की वृद्धि, और AIME25 में 10 अंक की वृद्धि। इसके अलावा, गणितीय तर्क कार्य GPQA में, इस मॉडल ने 61.7 अंक का उत्कृष्ट स्कोर प्राप्त किया।

इस सफलता को प्राप्त करने के लिए, 360智脑 टीम ने दो नवीन प्रशिक्षण विधियों का उपयोग किया। पहला है Curriculum SFT (क्रमिक पर्यवेक्षित ठीक-ठीक समायोजन), चरणबद्ध प्रशिक्षण के माध्यम से, मॉडल को सरल गणितीय समस्याओं से धीरे-धीरे जटिल समस्याओं में संक्रमित करने के लिए, तार्किक तर्क क्षमता को और बढ़ाया जाता है। दूसरा है सुदृढीकरण अधिगम (RL), जो पहली बार 14B स्तर के अनुमान मॉडल पर सफलतापूर्वक लागू किया गया है, न केवल अनुमान सटीकता में वृद्धि हुई है, बल्कि यह सुनिश्चित भी किया गया है कि अन्य कौशल मूल रूप से बिना नुकसान के हैं।

इस रिलीज में न केवल मॉडल ही शामिल है, बल्कि SFT डेटा, कोड और तकनीकी रिपोर्ट भी ओपन सोर्स हैं, जो उद्योग के लिए बहुमूल्य संसाधन प्रदान करते हैं। यह उपलब्धि सुदृढीकरण अधिगम के क्षेत्र में छोटे और मध्यम आकार के मॉडल की महत्वपूर्ण प्रगति को दर्शाती है, और इससे AI अनुमान क्षमता के आगे प्रसार और विकास को बढ़ावा मिल सकता है।

प्रोजेक्ट पता:https://github.com/Qihoo360/Light-R1

मॉडल पता:https://huggingface.co/qihoo360/Light-R1-14B-DS

डेटा पता:https://huggingface.co/datasets/qihoo360/Light-R1-SFTData