13 अप्रैल को, कुन्लुन् वान्वी तियान्गोंग टीम ने नए अपग्रेड किए गए Skywork-OR1 (ओपन रीज़नर 1) सीरीज़ मॉडल को लॉन्च करने की घोषणा की, जो 2025 के फरवरी में लॉन्च किए गए पहले चीनी लॉजिकल रीज़निंग बड़े मॉडल Skywork-o1 के बाद एक और उपलब्धि है। इस सीरीज़ के मॉडल ने समान पैरामीटर स्केल के साथ उद्योग में अग्रणी अनुमान प्रदर्शन हासिल किया है, जिससे बड़े मॉडल की तार्किक समझ और जटिल कार्यों को हल करने की क्षमता में और सुधार हुआ है।

इस बार ओपन-सोर्स किए गए Skywork-OR1 सीरीज़ मॉडल में तीन उच्च-प्रदर्शन मॉडल शामिल हैं: Skywork-OR1-Math-7B, जो गणित के क्षेत्र पर केंद्रित एक विशेष मॉडल है, जिसमें मजबूत कोडिंग क्षमता भी है; Skywork-OR1-7B-Preview, जो गणित और कोडिंग क्षमताओं को एकीकृत करता है, जिसमें सामान्यता और व्यावसायिकता दोनों हैं; और Skywork-OR1-32B-Preview, जो अधिक जटिल कार्यों और मजबूत अनुमान क्षमताओं के लिए एक प्रमुख संस्करण है।

微信截图_20250414084641.png

प्रतिस्पर्धी प्रोग्रामिंग कार्यों में, सामान्य मॉडल Skywork-OR1-7B-Preview और Skywork-OR1-32B-Preview दोनों ने LiveCodeBench डेटासेट पर समान पैरामीटर स्केल के साथ सर्वोत्तम प्रदर्शन किया है। Skywork-OR1-32B-Preview विशेष रूप से उत्कृष्ट है, इसकी कोड जेनरेशन और समस्या-समाधान क्षमता DeepSeek-R1 (जिसके पैरामीटर स्केल 671B तक पहुँचते हैं) के करीब है। मॉडल के आकार को कम करते हुए, इसने उत्कृष्ट लागत-प्रभावशीलता हासिल की है, जो तियान्गोंग टीम की प्रशिक्षण रणनीति की उन्नति को पूरी तरह से दर्शाता है।

Skywork-OR1 सीरीज़ मॉडल की उल्लेखनीय प्रदर्शन सफलता मॉडल के प्रशिक्षण के बाद के चरण में तियान्गोंग टीम के दीर्घकालिक स्वतंत्र अनुसंधान और तकनीकी खेती पर निर्भर करती है। डेटा चयन और प्रीप्रोसेसिंग के संदर्भ में, Skywork-OR1 ने गणित और कोडिंग के लिए एक उच्च-गुणवत्ता वाला डेटासेट बनाया है, जिसका उपयोग मजबूत सीखने के लिए किया जाता है ताकि गणित और कोडिंग क्षेत्रों में मॉडल की अनुमान क्षमता को बढ़ाया जा सके। टीम ने सत्यापन योग्यता, शुद्धता और चुनौती के तीन मानदंडों के अनुसार प्रारंभिक डेटा स्क्रीनिंग की, और स्वचालित रूप से सत्यापित किए जा सकने वाले प्रमाण प्रकार के प्रश्नों, गलत प्रश्नों और यूनिट परीक्षण के बिना कोडिंग समस्याओं को हटा दिया। डेटा फ़िल्टरिंग में, "सभी सही" या "सभी गलत" घटनाओं को रणनीति सीखने के लिए अप्रभावी होने से बचने के लिए, प्रत्येक प्रश्न के लिए कई दौर के नमूनों और उत्तर सत्यापन किए गए हैं, और मॉडल के प्रदर्शन के आधार पर अत्यधिक कठिन प्रश्नों को फ़िल्टर किया गया है।

इसके अलावा, Skywork-OR1 ने मॉडल प्रशिक्षण के लिए समूह सापेक्ष नीति अनुकूलन (GRPO) का उपयोग किया है, और प्रशिक्षण डेटा अनुकूलन, प्रशिक्षण पाइपलाइन अनुकूलन, प्रशिक्षण समय मॉडल अन्वेषण और प्रशिक्षण हानि अनुकूलन जैसे कई अनुकूलन उपायों को पेश किया है।

Skywork-OR1 सीरीज़ ओपन सोर्स पता:https://github.com/SkyworkAI/Skywork-OR1