कुणलुन वान्वी ने आज आधिकारिक तौर पर घोषणा की है कि उनके द्वारा विकसित स्काईवर्क R1V मल्टी-मॉडल रीज़निंग मॉडल को आधिकारिक तौर पर ओपन सोर्स कर दिया गया है! यह न केवल चीन का पहला औद्योगिक ओपन सोर्स मल्टी-मॉडल रीज़निंग मॉडल है, बल्कि यह चीन की AI शक्ति को मल्टी-मॉडल समझ और तर्क के क्षेत्र में एक मील का पत्थर भी दर्शाता है! आज से, मॉडल वेट और तकनीकी रिपोर्ट पूरी तरह से सार्वजनिक रूप से उपलब्ध हैं!

कल्पना कीजिए, एक AI मॉडल जो न केवल चित्रों को समझ सकता है, बल्कि मानवों की तरह तार्किक रूप से तर्क कर सकता है और जटिल दृश्य समस्याओं को हल कर सकता है - यह अब विज्ञान कथा फिल्मों का दृश्य नहीं है, बल्कि स्काईवर्क R1V की क्षमता है! यह मॉडल "AI जगत का शर्लक होम्स" की तरह है, यह बारीकी से विश्लेषण करने में कुशल है, बड़ी मात्रा में दृश्य जानकारी से गहन अर्थ निकालता है, और अंत में सटीक उत्तर देता है। चाहे वह दृश्य तार्किक पहेलियों को सुलझाना हो, उच्च कठिनाई वाले दृश्य गणित के प्रश्नों का उत्तर देना हो, या छवियों में वैज्ञानिक घटनाओं का विश्लेषण करना हो, या यहाँ तक कि चिकित्सा इमेजिंग के निदान में सहायता करना हो, स्काईवर्क R1V अपनी अद्भुत क्षमता दिखा सकता है।

image.png

एक AI मॉडल की "बुद्धिमत्ता" को मापने के लिए, डेटा सबसे अधिक प्रमाणात्मक है! तर्क क्षमता के मामले में, स्काईवर्क R1V ने आधिकारिक MATH500 और AIME बेंचमार्क परीक्षणों में क्रमशः 94.0 और 72.0 के अत्यधिक उच्च अंक प्राप्त किए हैं! इसका मतलब है कि चाहे वह जटिल गणितीय समस्याओं को हल करना हो या सख्त तार्किक तर्क करना हो, स्काईवर्क R1V आसानी से इसका सामना कर सकता है। इससे भी अधिक आश्चर्यजनक यह है कि इसने अपनी शक्तिशाली तर्क क्षमता को दृश्य क्षेत्र में सफलतापूर्वक "प्रत्यारोपित" किया है, MMMU और MathVista जैसे दृश्य तर्क बेंचमार्क परीक्षणों में क्रमशः 69 और 67.5 के उच्च अंक प्राप्त किए हैं! ये ठोस डेटा सीधे साबित करते हैं कि स्काईवर्क R1V में अग्रणी तार्किक तर्क और गणितीय विश्लेषण क्षमता है!

image.png

कुणलुन वान्वी ने गर्व से कहा कि स्काईवर्क R1V मॉडल के पीछे तीन प्रमुख तकनीकी नवाचार हैं:

सबसे पहले,  पाठानुमान क्षमता का बहु-मोडल कुशल स्थानांतरण। कुणलुन वान्वी टीम ने एक अनोखा तरीका अपनाया है, स्काईवर्क-VL के दृश्य प्रोजेक्टर का चतुराई से उपयोग करते हुए, भाषा मॉडल और दृश्य एन्कोडर को फिर से प्रशिक्षित करने में भारी लागत लगाए बिना, "कुन-कुन दा नोवी" की तरह, मूल रूप से शक्तिशाली पाठानुमान क्षमता को दृश्य कार्यों में पूरी तरह से स्थानांतरित कर दिया है, और इसकी मूल पाठानुमान क्षमता को बिल्कुल भी प्रभावित नहीं किया है!

दूसरा,  मल्टी-मॉडल मिश्रित प्रशिक्षण (Iterative SFT+GRPO)। इस प्रशिक्षण विधि को मॉडल को "मिश्रित पोषक आहार" खिलाने जैसा है, पुनरावृति पर्यवेक्षित ठीक-ठीक समायोजन और GRPO सुदृढीकरण शिक्षण के चतुर संयोजन के माध्यम से, दृश्य-पाठ प्रतिनिधित्व को चरणबद्ध और रणनीतिक रूप से संरेखित किया जाता है, जिससे अंततः क्रॉस-मोडल कार्यों का कुशल संलयन प्राप्त होता है, और मॉडल की क्रॉस-मोडल क्षमता में तेजी से वृद्धि होती है! MMMU और MathVista बेंचमार्क परीक्षणों में, स्काईवर्क R1V का प्रदर्शन बड़े पैमाने पर बंद-स्रोत मॉडल के बराबर भी हो सकता है!

अंत में,  अनुकूली लंबाई सोच श्रृंखला आसवन। कुणलुन वान्वी टीम ने नवीनतापूर्वक एक "स्मार्ट ब्रेक" तंत्र प्रस्तुत किया है, मॉडल दृश्य-पाठ की जटिलता के अनुसार, तर्क श्रृंखला की लंबाई को स्वतः समायोजित कर सकता है, "अत्यधिक सोच" से बच सकता है, जिससे तर्क सटीकता सुनिश्चित करते हुए, तर्क दक्षता में काफी वृद्धि होती है! बहु-चरण स्व-आसवन रणनीति के साथ, मॉडल डेटा उत्पादन और तर्क गुणवत्ता में और सुधार हुआ है, और जटिल बहु-मोडल कार्यों में अधिक कुशलता से प्रदर्शन करता है!

image.png

स्काईवर्क R1V का ओपन सोर्स होना निस्संदेह चीन और दुनिया भर के AI शोधकर्ताओं और डेवलपर्स को एक शक्तिशाली बहु-मोडल तर्क "हथियार" प्रदान करेगा। इसका उदय न केवल बहु-मोडल AI तकनीक के नवाचार और अनुप्रयोगों में तेजी लाएगा, बल्कि विभिन्न उद्योगों में AI तकनीक के गहन एकीकरण को भी बढ़ावा देगा, जिससे हम एक अधिक बुद्धिमान और बेहतर भविष्य के लिए एक नया मार्ग खोलेंगे!