जर्मनी के अनुसंधान संस्थान LAION ने Stable Diffusion और अन्य जनरेटिव AI मॉडल को प्रशिक्षित करने के लिए डेटा तैयार किया है। इस संस्थान ने एक नया डेटा सेट जारी किया है, जिसमें दावा किया गया है कि इस डेटा सेट से "ज्ञात संदिग्ध बाल यौन शोषण सामग्री (CSAM) लिंक पूरी तरह से हटा दिए गए हैं।"

नया डेटा सेट Re-LAION-5B वास्तव में पुराने डेटा सेट LAION-5B का पुनः प्रकाशन है, लेकिन इसे गैर-लाभकारी संगठन इंटरनेट ऑब्जर्वेटरी फाउंडेशन, ह्यूमन राइट्स वॉच, कनाडाई चाइल्ड प्रोटेक्शन सेंटर और अब समाप्त हो चुके स्टैनफोर्ड इंटरनेट ऑब्जर्वेटरी के सुझावों के आधार पर "सुधारा" गया है। इसे डाउनलोड के लिए दो संस्करणों में उपलब्ध कराया गया है, Re-LAION-5B Research और Re-LAION-5B Research-Safe (जिसमें अतिरिक्त NSFW सामग्री भी हटा दी गई है)। LAION का कहना है कि दोनों संस्करणों ने हजारों ज्ञात (और "संभवतः") CSAM लिंक को फ़िल्टर किया है।

LAION ने एक ब्लॉग पोस्ट में लिखा: "LAION ने अपने डेटा सेट से अवैध सामग्री को हटाने के लिए शुरुआत से ही प्रतिबद्धता जताई है और इस लक्ष्य को प्राप्त करने के लिए उचित कदम उठाए हैं।" "LAION अवैध सामग्री को एक बार खोजे जाने पर यथाशीघ्र हटाने के सिद्धांत का सख्ती से पालन करता है।"

यह ध्यान देने योग्य है कि LAION का डेटा सेट छवियों को शामिल नहीं करता है और कभी भी छवियों को शामिल नहीं किया है। इसके बजाय, ये LAION द्वारा संकलित छवि लिंक और छवि वैकल्पिक पाठ का इंडेक्स हैं, जो सभी एक अन्य डेटा सेट - Common Crawl से हैं, जिसमें कैश की गई वेबसाइटें और वेब पृष्ठ शामिल हैं।

कृत्रिम बुद्धिमत्ता यांत्रिक हाथ AI (6)

चित्र स्रोत नोट: चित्र AI द्वारा उत्पन्न, चित्र लाइसेंस सेवा प्रदाता Midjourney द्वारा

Re-LAION-5B का प्रकाशन 2023 के दिसंबर में स्टैनफोर्ड इंटरनेट ऑब्जर्वेटरी द्वारा की गई जांच के बाद किया गया, जिसमें पाया गया कि LAION-5B (विशेष रूप से LAION-5B400M नामक उप-सेट) में कम से कम 1,679 अवैध छवि लिंक शामिल थे जो सोशल मीडिया पोस्ट और लोकप्रिय वयस्क वेबसाइटों से कैश किए गए थे। रिपोर्ट के अनुसार, 400M में "विभिन्न अनुचित सामग्री" के लिंक भी शामिल थे, जिसमें अश्लील चित्र, नस्लीय मानहानि और हानिकारक सामाजिक रूढ़ियाँ शामिल थीं।

हालांकि रिपोर्ट के स्टैनफोर्ड विश्वविद्यालय के सह-लेखकों ने संकेत दिया कि अवैध सामग्री को हटाना कठिन होगा और CSAM की उपस्थिति आवश्यक रूप से डेटा सेट पर प्रशिक्षित मॉडल के आउटपुट को प्रभावित नहीं करती है, लेकिन LAION ने कहा कि वे अस्थायी रूप से LAION-5B को ऑफ़लाइन रखेंगे।

स्टैनफोर्ड रिपोर्ट ने सुझाव दिया कि LAION-5B पर प्रशिक्षित मॉडल "अवहेलना की जानी चाहिए और जहाँ तक संभव हो वितरण रोक दिया जाना चाहिए।" शायद इसी संदर्भ में, AI स्टार्टअप Runway ने हाल ही में AI होस्टिंग प्लेटफॉर्म Hugging Face से अपने Stable Diffusion1.5 मॉडल को हटा लिया है; हमने इस कंपनी से अधिक जानकारी के लिए संपर्क किया है। (Runway ने 2023 में Stable Diffusion के पीछे की कंपनी Stability AI के साथ मिलकर मूल Stable Diffusion मॉडल को प्रशिक्षित करने में मदद की।)

नया Re-LAION-5B डेटा सेट लगभग 55 अरब पाठ-छवि जोड़े शामिल करता है और इसे Apache 2.0 लाइसेंस के तहत जारी किया गया है। LAION का कहना है कि तीसरे पक्ष मौजूदा LAION-5B की प्रतियों को साफ करने के लिए मेटाडेटा का उपयोग कर सकते हैं, अवैध सामग्री को हटाकर।

LAION ने जोर देकर कहा कि इसका डेटा सेट अनुसंधान के लिए है, व्यावसायिक उद्देश्यों के लिए नहीं। लेकिन यदि इतिहास कुछ भी सिखाता है, तो यह कुछ संगठनों को रोकने वाला नहीं है। Stability AI के अलावा, Google ने भी अपने छवि जनरेशन मॉडल को प्रशिक्षित करने के लिए LAION डेटा सेट का उपयोग किया है।

LAION ने पोस्ट में आगे कहा: "हमारे भागीदारों द्वारा प्रदान किए गए लिंक और छवि हैश सूचियों के मिलान के बाद कुल 2,236 [संशय CSAM की ओर इशारा करने वाले] लिंक हटाए गए हैं।" "इन लिंक में 2023 के दिसंबर में स्टैनफोर्ड इंटरनेट ऑब्जर्वेटरी रिपोर्ट में पाए गए 1008 लिंक भी शामिल हैं... हम सभी शोध प्रयोगशालाओं और संगठनों को जो अभी भी पुराने LAION-5B का उपयोग कर रहे हैं, से अनुरोध करते हैं कि वे जल्द से जल्द Re-LAION-5B डेटा सेट में स्थानांतरित हों।"