गूगल DeepMind टीम ने आधिकारिक रूप से WebLI-100B डेटा सेट लॉन्च किया है, जो 100 अरब छवि-टेक्स्ट जोड़ों का एक विशाल डेटा सेट है, जिसका उद्देश्य कृत्रिम बुद्धिमत्ता दृश्य भाषा मॉडल की सांस्कृतिक विविधता और बहुभाषिकता को बढ़ाना है। इस डेटा सेट के माध्यम से, शोधकर्ताओं का लक्ष्य विभिन्न सांस्कृतिक और भाषाई संदर्भों में दृश्य भाषा मॉडल के प्रदर्शन में सुधार करना है, साथ ही विभिन्न उप-समूहों के बीच प्रदर्शन भिन्नताओं को कम करना है, ताकि कृत्रिम बुद्धिमत्ता की समावेशिता को बढ़ाया जा सके।
दृश्य भाषा मॉडल (VLMs) छवियों और पाठ को जोड़ने के लिए सीखने के लिए बड़े डेटा सेट पर निर्भर करते हैं, ताकि छवि कैप्शनिंग और दृश्य प्रश्न-उत्तर जैसे कार्यों को निष्पादित किया जा सके। पहले, ये मॉडल मुख्य रूप से Conceptual Captions और LAION जैसे बड़े डेटा सेट पर निर्भर करते थे, हालाँकि इन डेटा सेट में लाखों से लेकर अरबों तक के छवि-टेक्स्ट जोड़े शामिल हैं, लेकिन इनकी प्रगति की गति 10 अरब जोड़ों के पैमाने तक धीमी हो गई है, जो मॉडल की सटीकता और समावेशिता को बढ़ाने में एक सीमा बनाती है।
WebLI-100B डेटा सेट का लॉन्च इस चुनौती का सामना करने के लिए किया गया है। पिछले डेटा सेट के विपरीत, WebLI-100B सख्त फ़िल्टरिंग विधियों पर निर्भर नहीं करता है, जो अक्सर महत्वपूर्ण सांस्कृतिक विवरणों को हटा देती हैं। इसके बजाय, यह डेटा की रेंज को बढ़ाने पर अधिक ध्यान केंद्रित करता है, विशेष रूप से कम संसाधन भाषाओं और विविध सांस्कृतिक अभिव्यक्तियों के क्षेत्रों में। शोध टीम ने WebLI-100B के विभिन्न उप-सेट पर मॉडल पूर्व-प्रशिक्षण करके डेटा के पैमाने का मॉडल प्रदर्शन पर प्रभाव का विश्लेषण किया।
परीक्षणों के बाद, पूर्ण डेटा सेट का उपयोग करके प्रशिक्षित मॉडल, सांस्कृतिक और बहुभाषिक कार्यों में प्रदर्शन में, छोटे डेटा सेट पर प्रशिक्षित मॉडल की तुलना में स्पष्ट रूप से बेहतर थे, भले ही गणना संसाधन समान हों। इसके अलावा, शोध ने पाया कि डेटा सेट को 10B से 100B तक बढ़ाने का पश्चिमी-केंद्रित मानक परीक्षणों पर प्रभाव कम था, लेकिन सांस्कृतिक विविधता कार्यों और कम संसाधन भाषाओं की खोज में उल्लेखनीय सुधार हुआ।
पेपर: https://arxiv.org/abs/2502.07617
मुख्य बिंदु:
🌐 ** नया डेटा सेट **: WebLI-100B 100 अरब छवि-टेक्स्ट जोड़ों का एक विशाल डेटा सेट है, जिसका उद्देश्य AI मॉडल की सांस्कृतिक विविधता और बहुभाषिकता को बढ़ाना है।
📈 ** मॉडल प्रदर्शन में सुधार **: WebLI-100B डेटा सेट का उपयोग करके प्रशिक्षित मॉडल बहु-सांस्कृतिक और बहुभाषिक कार्यों में पिछले डेटा सेट की तुलना में बेहतर प्रदर्शन करते हैं।
🔍 ** पूर्वाग्रह कम करना **: WebLI-100B का डेटा सेट सख्त फ़िल्टरिंग से बचता है, अधिक सांस्कृतिक विवरणों को बनाए रखता है, और मॉडल की समावेशिता और सटीकता को बढ़ाता है।