2025 साल के 6 मार्च को, **Light-R1-32B** नाम का एक नया भाषा मॉडल लॉन्च किया गया था। यह **Qwen2.5-32B-Instruct** मॉडल पर आधारित एक गणितीय समस्या-समाधान उपकरण है, जिसे विशेष रूप से प्रशिक्षित किया गया है और अपनी बेहतरीन गणितीय समस्या-समाधान क्षमता, कम प्रशिक्षण लागत और प्रतिकृतियाँ के लिए कृत्रिम बुद्धिमत्ता के क्षेत्र में एक उल्लेखनीय उपलब्धि है। विकास दल xAI का कहना है कि Light-R1-32B न केवल प्रदर्शन में समान मॉडल से बेहतर है, बल्कि शैक्षणिक अनुसंधान और व्यावहारिक अनुप्रयोगों के लिए भी अत्यंत मूल्यवान संदर्भ प्रदान करता है।
उत्कृष्ट गणितीय समस्या-समाधान क्षमता
Light-R1-32B का मुख्य लाभ इसकी उत्कृष्ट गणितीय समस्या-समाधान क्षमता है। **AIME24** और **AIME25** जैसी आधिकारिक गणितीय प्रतियोगिता परीक्षाओं में, इस मॉडल ने **DeepSeek-R1-Distill-Qwen-32B** की तुलना में बेहतर परिणाम दिखाए हैं। और भी आश्चर्यजनक बात यह है कि यह उपलब्धि "शून्य से शुरुआत" प्रशिक्षण के आधार पर हासिल की गई है, अर्थात्, लंबी श्रृंखला सोच क्षमता वाले प्रारंभिक मॉडल का उपयोग किए बिना, एक अनोखे तरीके से वर्तमान स्तर तक धीरे-धीरे सुधार किया गया है। इस सफलता ने जटिल तर्क कार्यों में Light-R1-32B की विशाल क्षमता को सिद्ध किया है।
कम लागत और प्रतिकृतियाँ
कृत्रिम बुद्धिमत्ता के क्षेत्र में, मॉडल प्रशिक्षण अक्सर उच्च लागत के साथ जुड़ा होता है। हालांकि, Light-R1-32B ने इस परंपरा को तोड़ दिया है, इसकी प्रशिक्षण लागत केवल लगभग **1000 अमेरिकी डॉलर** है, जिससे विकास की बाधा बहुत कम हो गई है। और भी महत्वपूर्ण बात यह है कि विकास दल ने सभी प्रशिक्षण डेटा, कोड और प्रशिक्षण प्रक्रियाएँ सार्वजनिक की हैं। यह पारदर्शिता न केवल अन्य शोधकर्ताओं के लिए मॉडल को दोहराना आसान बनाती है, बल्कि आगे के अनुकूलन और विस्तार के लिए एक मजबूत आधार भी प्रदान करती है, जिसे ओपन-सोर्स भावना का एक आदर्श उदाहरण माना जा सकता है।
नवीन प्रशिक्षण विधि: पाठ्यक्रम अधिगम और सोच श्रृंखला सुदृढीकरण
Light-R1-32B की सफलता इसके नवीन प्रशिक्षण रणनीति पर निर्भर करती है। विकास दल ने **पाठ्यक्रम अधिगम** के तरीके का उपयोग किया है, **पर्यवेक्षित ठीक-ठीक समायोजन (SFT)** और **प्रत्यक्ष वरीयता अनुकूलन (DPO)** के माध्यम से, मॉडल के प्रदर्शन को क्रमबद्ध रूप से बेहतर बनाया गया है। विशेष रूप से उल्लेखनीय है कि प्रशिक्षण प्रक्रिया के दौरान मॉडल की **सोच श्रृंखला (Chain of Thought)** क्षमता को विशेष रूप से मजबूत किया गया है। संकेत में **<think>** टैग को जोड़कर, मॉडल को विस्तृत तर्क प्रक्रिया उत्पन्न करने के लिए प्रेरित किया गया है, जिससे समस्या-समाधान की तार्किकता और सटीकता में उल्लेखनीय सुधार हुआ है।
डेटा सफाई निष्पक्षता सुनिश्चित करती है
मूल्यांकन परिणामों की निष्पक्षता सुनिश्चित करने के लिए, Light-R1-32B ने डेटा तैयार करने के चरण में पूरी तरह से **डेटा सफाई** की है। विकास दल ने डेटा को दूषित करने वाले नमूनों को हटा दिया है, जिससे प्रशिक्षण डेटा और परीक्षण डेटा के बीच पारस्परिक प्रभाव से बचा गया है। इस सख्त रवैये ने व्यावहारिक अनुप्रयोगों में मॉडल की विश्वसनीयता को और बढ़ाया है।
भविष्य की संभावनाएँ
Light-R1-32B के प्रकाशन ने न केवल गणितीय समस्या-समाधान क्षेत्र में एक नई लहर लाई है, बल्कि कृत्रिम बुद्धिमत्ता के कम लागत वाले विकास के लिए भी एक मानक स्थापित किया है। चाहे शैक्षणिक शोधकर्ता हों या उद्योग के पेशेवर, सभी इस मॉडल को दोहराकर और अनुकूलित करके अधिक संभावनाओं का पता लगा सकते हैं। xAI का कहना है कि भविष्य में Light-R1-32B को और बेहतर बनाया जाएगा और शिक्षा, अनुसंधान और इंजीनियरिंग जैसे क्षेत्रों में इसके व्यापक अनुप्रयोग को बढ़ावा दिया जाएगा।
Light-R1-32B अपनी कम लागत, उच्च प्रदर्शन और मजबूत सोच श्रृंखला के साथ, गणितीय समस्या-समाधान मॉडल के मूल्य को फिर से परिभाषित करता है। जैसा कि इसके नाम से पता चलता है, यह एक प्रकाश किरण की तरह है, जो कृत्रिम बुद्धिमत्ता और गणित के संयोजन के एक नए मार्ग को रोशन करता है।
पता:https://github.com/Qihoo360/Light-R1