कृत्रिम बुद्धिमत्ता के क्षेत्र में, अली टोंगयी प्रयोगशाला टीम ने हाल ही में अपने नवीनतम बहु-मोडल मॉडल - R1-ओम्नी को ओपन सोर्स करने की घोषणा की है। यह मॉडल प्रबलित अधिगम और सत्यापन योग्य पुरस्कार (RLVR) विधि को जोड़ता है, जो ऑडियो और वीडियो जानकारी को संसाधित करने में उत्कृष्ट क्षमता प्रदर्शित करता है। R1-ओम्नी का मुख्य आकर्षण इसकी पारदर्शिता है, जिससे हम निर्णय लेने की प्रक्रिया में विभिन्न मोडल की भूमिका को और अधिक स्पष्ट रूप से समझ सकते हैं, खासकर भावना पहचान जैसे कार्यों में।

image.png

डीपसीक R1 के लॉन्च के साथ, बड़े मॉडल में प्रबलित अधिगम की क्षमता का लगातार पता लगाया जा रहा है। RLVR विधि बहु-मोडल कार्यों के लिए नए अनुकूलन विचार लाती है, जो ज्यामितीय तर्क, दृश्य गणना जैसे जटिल कार्यों को प्रभावी ढंग से संभाल सकती है। हालाँकि वर्तमान शोध मुख्य रूप से छवि और पाठ के संयोजन पर केंद्रित है, लेकिन टोंगयी प्रयोगशाला के नवीनतम अन्वेषण ने इस क्षेत्र का विस्तार किया है, RLVR को वीडियो ऑल-मोडल मॉडल के साथ जोड़कर, तकनीक की व्यापक अनुप्रयोग संभावनाओं को पूरी तरह से प्रदर्शित किया है।

image.png

R1-ओम्नी RLVR विधि के माध्यम से ऑडियो और वीडियो जानकारी के प्रभाव को और अधिक सहज बनाता है। उदाहरण के लिए, भावना पहचान कार्य में, मॉडल स्पष्ट रूप से दिखा सकता है कि किन ऑडियो-वीडियो संकेतों ने भावना के निर्णय में महत्वपूर्ण भूमिका निभाई है। यह पारदर्शिता न केवल मॉडल की विश्वसनीयता में सुधार करती है, बल्कि शोधकर्ताओं और डेवलपर्स को बेहतर अंतर्दृष्टि भी प्रदान करती है।

प्रदर्शन सत्यापन के संबंध में, टोंगयी प्रयोगशाला टीम ने R1-ओम्नी की तुलना मूल HumanOmni-0.5B मॉडल के साथ प्रयोगात्मक रूप से की। परिणामों से पता चला है कि DFEW और MAFW डेटासेट पर R1-ओम्नी का प्रदर्शन उल्लेखनीय रूप से बेहतर हुआ है, औसतन 35% से अधिक की वृद्धि हुई है। इसके अलावा, पारंपरिक पर्यवेक्षित ठीक-ट्यूनिंग (SFT) मॉडल की तुलना में, R1-ओम्नी ने बिना पर्यवेक्षण वाले अधिगम (UAR) में भी 10% से अधिक की वृद्धि की है। विभिन्न वितरण परीक्षण सेट (जैसे RAVDESS) पर, R1-ओम्नी ने उत्कृष्ट सामान्यीकरण क्षमता दिखाई है, WAR और UAR दोनों में 13% से अधिक की वृद्धि हुई है। ये परिणाम न केवल अनुमान क्षमता में सुधार करने में RLVR के लाभ को सिद्ध करते हैं, बल्कि भविष्य के बहु-मोडल मॉडल अनुसंधान के लिए नए विचार और दिशाएँ भी प्रदान करते हैं।

R1-ओम्नी का ओपन सोर्स अधिक शोधकर्ताओं और डेवलपर्स के लिए सुविधा प्रदान करेगा, और उम्मीद है कि यह मॉडल भविष्य के अनुप्रयोगों में अधिक नवाचार और सफलता लाएगा।