360 दिमाग टीम ने Deepseek सुदृढीकरण अधिगम प्रभाव को सफलतापूर्वक दोहराया, ओपन-सोर्स मॉडल Light-R1-14B-DS जारी किया

AIbase基地

द्वारा प्रकाशितAI समाचार · 3 मिनट पढ़ें · Mar 14, 2025

16.3k

हाल ही में, 360智脑 टीम ने Deepseek के सुदृढीकरण अधिगम प्रभाव को सफलतापूर्वक दोहराने की घोषणा की और आधिकारिक तौर पर ओपन सोर्स अनुमान मॉडल Light-R1-14B-DS जारी किया। इस मॉडल का प्रदर्शन DeepSeek-R1-Distill-Llama-70B और DeepSeek-R1-Distill-Qwen-32B से बेहतर है, जो 14B पैरामीटर स्केल पर सुदृढीकरण अधिगम प्रभाव को प्राप्त करने वाला उद्योग का पहला मॉडल है, जिससे गणितीय तर्क क्षमता में उल्लेखनीय वृद्धि हुई है, और स्कोर अधिकांश 32B स्तर के मॉडल से अधिक है।

DeepSeek-R1-14B की तुलना में, Light-R1-14B-DS* गणित प्रतियोगिता कार्यों में उत्कृष्ट प्रदर्शन करता है: AIME24 परीक्षण में 4.3 अंक की वृद्धि, और AIME25 में 10 अंक की वृद्धि। इसके अलावा, गणितीय तर्क कार्य GPQA में, इस मॉडल ने 61.7 अंक का उत्कृष्ट स्कोर प्राप्त किया।

इस सफलता को प्राप्त करने के लिए, 360智脑 टीम ने दो नवीन प्रशिक्षण विधियों का उपयोग किया। पहला है Curriculum SFT (क्रमिक पर्यवेक्षित ठीक-ठीक समायोजन), चरणबद्ध प्रशिक्षण के माध्यम से, मॉडल को सरल गणितीय समस्याओं से धीरे-धीरे जटिल समस्याओं में संक्रमित करने के लिए, तार्किक तर्क क्षमता को और बढ़ाया जाता है। दूसरा है सुदृढीकरण अधिगम (RL), जो पहली बार 14B स्तर के अनुमान मॉडल पर सफलतापूर्वक लागू किया गया है, न केवल अनुमान सटीकता में वृद्धि हुई है, बल्कि यह सुनिश्चित भी किया गया है कि अन्य कौशल मूल रूप से बिना नुकसान के हैं।

इस रिलीज में न केवल मॉडल ही शामिल है, बल्कि SFT डेटा, कोड और तकनीकी रिपोर्ट भी ओपन सोर्स हैं, जो उद्योग के लिए बहुमूल्य संसाधन प्रदान करते हैं। यह उपलब्धि सुदृढीकरण अधिगम के क्षेत्र में छोटे और मध्यम आकार के मॉडल की महत्वपूर्ण प्रगति को दर्शाती है, और इससे AI अनुमान क्षमता के आगे प्रसार और विकास को बढ़ावा मिल सकता है।

प्रोजेक्ट पता:https://github.com/Qihoo360/Light-R1

मॉडल पता:https://huggingface.co/qihoo360/Light-R1-14B-DS

डेटा पता:https://huggingface.co/datasets/qihoo360/Light-R1-SFTData

अली क्लाउड ने पूरी तरह से नया गणितीय तर्क मॉडल Qwen2.5-Math-PRM लॉन्च किया, 7B संस्करण ने GPT-4o को पार किया

आज, अली क्लाउड की टोंगी टीम ने पूरी तरह से नए गणितीय तर्क प्रक्रिया इनाम मॉडल Qwen2.5-Math-PRM का आधिकारिक रूप से शुभारंभ किया। यह मॉडल 72B और 7B दो आकारों में उपलब्ध है, और इसके प्रदर्शन ने समान खुली स्रोत प्रक्रिया इनाम मॉडल की तुलना में स्पष्ट रूप से बेहतर परिणाम दिए हैं, विशेष रूप से तर्क की गलतियों की पहचान में। Qwen2.5-Math-PRM का 7B संस्करण ने उद्योग में प्रचलित GPT-4o को आश्चर्यजनक रूप से पार किया, यह उपलब्धि अली क्लाउड के तर्क मॉडल के विकास में महत्वपूर्ण कदम को दर्शाती है।

अलीबाबा Qwen टीम ने नई प्रक्रिया पुरस्कार मॉडल जारी किया, गणितीय तर्क में फिर से विकास

अलीबाबा Qwen टीम ने हाल ही में 'गणितीय तर्क में प्रक्रिया पुरस्कार मॉडल के विकास के अनुभव और सबक' शीर्षक से एक पत्र प्रकाशित किया और Qwen2.5-Math-PRM श्रृंखला के तहत दो नए मॉडल लॉन्च किए, जिनमें क्रमशः 7B और 72B पैरामीटर हैं। ये मॉडल गणितीय तर्क में मौजूदा PRM ढांचे की सीमाओं को पार करते हैं, अभिनव तकनीकों के माध्यम से तर्क मॉडल की सटीकता और सामान्यीकरण क्षमता में महत्वपूर्ण सुधार लाते हैं। गणितीय तर्क बड़े भाषा मॉडल (LLM) के लिए एक महत्वपूर्ण चुनौती रही है, खासकर मध्य तर्कात्मक चरणों में, जिसमें गलती होती है.

अली ने नया एआई मापदंड “PROCESSBENCH” लॉन्च किया, जो गणितीय तर्क में त्रुटि पहचान क्षमता का आकलन करता है

हाल ही में, अलीबाबा Qwen टीम के शोधकर्ताओं ने “PROCESSBENCH” नामक एक नया मापदंड प्रस्तुत किया, जिसका उद्देश्य भाषा मॉडल के गणितीय तर्क में प्रक्रिया त्रुटियों की पहचान करने की क्षमता को मापना है। जटिल तर्क कार्यों में भाषा मॉडल की उल्लेखनीय प्रगति के साथ, इस क्षेत्र के शोधकर्ताओं ने देखा है कि हालांकि मॉडल उत्कृष्ट प्रदर्शन कर रहे हैं, कुछ कठिन प्रश्नों को संभालने में उन्हें अभी भी चुनौतियों का सामना करना पड़ रहा है। इसलिए, एक प्रभावी पर्यवेक्षण विधि का विकास विशेष रूप से महत्वपूर्ण है। वर्तमान में, भाषा मॉडल के मूल्यांकन मापदंडों में कुछ कमियां हैं। एक पक्ष

पिटाई के कारण रोते हुए! Epoch AI ने गणित के लिए नया मानक FrontierMath प्रस्तुत किया, शीर्ष AI मॉडल की समस्या समाधान दर 2% से अधिक नहीं

कृत्रिम बुद्धिमत्ता के विशाल ब्रह्मांड में, गणित को मशीन बुद्धिमत्ता के अंतिम गढ़ के रूप में देखा जाता रहा है। अब, FrontierMath नामक एक नया मानक परीक्षण सामने आया है, जो AI की गणितीय तर्क क्षमता को अभूतपूर्व सीमाओं पर ले जा रहा है। Epoch AI ने 60 से अधिक गणित के शीर्ष मस्तिष्कों के साथ मिलकर इस AI चैलेंज को तैयार किया है, जिसे गणित की ओलंपिक कहा जा सकता है। यह सिर्फ एक तकनीकी परीक्षण नहीं है, बल्कि कृत्रिम बुद्धिमत्ता की गणितीय बुद्धि की अंतिम परीक्षा है। कल्पना कीजिए कि दुनिया के शीर्ष गणितज्ञों की एक प्रयोगशाला है, जहां उन्होंने ध्यानपूर्वक एक समस्या को डिजाइन किया है।

AI समाचार

360 दिमाग टीम ने Deepseek सुदृढीकरण अधिगम प्रभाव को सफलतापूर्वक दोहराया, ओपन-सोर्स मॉडल Light-R1-14B-DS जारी किया

AIbase基地

संबंधित AI समाचार अनुशंसाएँ

अली क्लाउड ने पूरी तरह से नया गणितीय तर्क मॉडल Qwen2.5-Math-PRM लॉन्च किया, 7B संस्करण ने GPT-4o को पार किया

अलीबाबा Qwen टीम ने नई प्रक्रिया पुरस्कार मॉडल जारी किया, गणितीय तर्क में फिर से विकास

अली ने नया एआई मापदंड “PROCESSBENCH” लॉन्च किया, जो गणितीय तर्क में त्रुटि पहचान क्षमता का आकलन करता है