AI की दुनिया में, हम एक ध्यान आकर्षित करने वाले नए सदस्य - Cambrian-1 का स्वागत करते हैं, जो LeCun और谢赛宁 जैसे उद्योग के दिग्गजों द्वारा विकसित एक मल्टीमॉडल बड़े भाषा मॉडल (MLLM) है। इस मॉडल की उपस्थिति केवल तकनीकी दृष्टि से एक छलांग नहीं है, बल्कि मल्टीमॉडल लर्निंग अनुसंधान पर एक गहरा विचार भी है।
Cambrian-1 की डिज़ाइन दर्शन दृष्टि को प्राथमिकता देना है, जो आज के भाषा-केंद्रित AI अनुसंधान में विशेष रूप से मूल्यवान है। यह हमें याद दिलाता है कि मानव ज्ञान प्राप्त करने के तरीके केवल भाषा तक सीमित नहीं हैं, बल्कि दृश्य, श्रवण, स्पर्श और अन्य संवेदी अनुभव भी उतने ही महत्वपूर्ण हैं। Cambrian-1 का ओपन-सोर्स होना सभी मल्टीमॉडल लर्निंग में रुचि रखने वाले शोधकर्ताओं और डेवलपर्स के लिए एक कीमती संसाधन प्रदान करता है।
इस मॉडल का निर्माण पांच मुख्य तत्वों के चारों ओर केंद्रित है: दृश्य प्रतिनिधित्व सीखना, कनेक्टर डिज़ाइन, निर्देश माइक्रो-ट्यूनिंग डेटा, निर्देश माइक्रो-ट्यूनिंग रणनीति और मानक परीक्षण। प्रत्येक तत्व MLLM डिज़ाइन स्पेस की एक गहरी खोज का प्रतिनिधित्व करता है, जो अनुसंधान टीम की मौजूदा समस्याओं पर अनूठी अंतर्दृष्टि को दर्शाता है।
यह उल्लेखनीय है कि Cambrian-1 की दृश्य भाषा कार्यों में प्रदर्शन प्रभावशाली है। यह न केवल अन्य ओपन-सोर्स मॉडलों को पार करता है, बल्कि कुछ मानक परीक्षणों में उद्योग के शीर्ष प्रीमियम मॉडलों के बराबर भी है। इस उपलब्धि के पीछे, अनुसंधान टीम की निर्देश माइक्रो-ट्यूनिंग और कनेक्टर डिज़ाइन पर नवोन्मेषी सोच है।
हालांकि, Cambrian-1 का अनुसंधान सफर आसान नहीं रहा। शोधकर्ताओं ने पाया कि प्रशिक्षित MLLM में संवाद क्षमताओं में भी कमी हो सकती है, जिसे "उत्तर मशीन प्रभाव" कहा जाता है। इस समस्या को हल करने के लिए, उन्होंने प्रशिक्षण में सिस्टम संकेत जोड़े ताकि मॉडल को अधिक समृद्ध संवाद करने के लिए प्रोत्साहित किया जा सके।
Cambrian-1 की सफलता के पीछे एक मजबूत शोध टीम है। इसमें, Shengbang Tong (童晟邦) को पेपर का मुख्य लेखक माना जाता है, और उनके योगदान को नजरअंदाज नहीं किया जा सकता। वर्तमान में, वह न्यूयॉर्क विश्वविद्यालय में डॉक्टरेट की पढ़ाई कर रहे हैं, और उनके सलाहकार Yann LeCun प्रोफेसर और谢赛宁 प्रोफेसर हैं। उनके शोध की रुचियाँ विश्व मॉडल, बिना पर्यवेक्षण/स्व-पर्यवेक्षण अध्ययन, जनरेटिव मॉडल और मल्टीमॉडल मॉडल जैसे कई क्षेत्रों में फैली हुई हैं।
Cambrian-1 का ओपन-सोर्स AI समुदाय में ताजगी की एक लहर लाता है। यह न केवल एक शक्तिशाली मल्टीमॉडल लर्निंग उपकरण प्रदान करता है, बल्कि मल्टीमॉडल लर्निंग अनुसंधान पर गहन विचार करने के लिए भी प्रेरित करता है। जैसे-जैसे अधिक से अधिक शोधकर्ता और डेवलपर्स Cambrian-1 की खोज में शामिल होते हैं, हमें विश्वास है कि यह AI तकनीक के विकास में एक महत्वपूर्ण शक्ति बन जाएगा।
प्रोजेक्ट लिंक: https://github.com/cambrian-mllm/cambrian
पेपर: https://arxiv.org/abs/2406.16860