जर्मनी के अनुसंधान संस्थान LAION ने Stable Diffusion और अन्य जनरेटिव AI मॉडल को प्रशिक्षित करने के लिए डेटा तैयार किया है। इस संस्थान ने एक नया डेटा सेट जारी किया है, जिसमें दावा किया गया है कि इस डेटा सेट से "ज्ञात संदिग्ध बाल यौन शोषण सामग्री (CSAM) लिंक पूरी तरह से हटा दिए गए हैं।"
नया डेटा सेट Re-LAION-5B वास्तव में पुराने डेटा सेट LAION-5B का पुनः प्रकाशन है, लेकिन इसे गैर-लाभकारी संगठन इंटरनेट ऑब्जर्वेटरी फाउंडेशन, ह्यूमन राइट्स वॉच, कनाडाई चाइल्ड प्रोटेक्शन सेंटर और अब समाप्त हो चुके स्टैनफोर्ड इंटरनेट ऑब्जर्वेटरी के सुझावों के आधार पर "सुधारा" गया है। इसे डाउनलोड के लिए दो संस्करणों में उपलब्ध कराया गया है, Re-LAION-5B Research और Re-LAION-5B Research-Safe (जिसमें अतिरिक्त NSFW सामग्री भी हटा दी गई है)। LAION का कहना है कि दोनों संस्करणों ने हजारों ज्ञात (और "संभवतः") CSAM लिंक को फ़िल्टर किया है।
LAION ने एक ब्लॉग पोस्ट में लिखा: "LAION ने अपने डेटा सेट से अवैध सामग्री को हटाने के लिए शुरुआत से ही प्रतिबद्धता जताई है और इस लक्ष्य को प्राप्त करने के लिए उचित कदम उठाए हैं।" "LAION अवैध सामग्री को एक बार खोजे जाने पर यथाशीघ्र हटाने के सिद्धांत का सख्ती से पालन करता है।"
यह ध्यान देने योग्य है कि LAION का डेटा सेट छवियों को शामिल नहीं करता है और कभी भी छवियों को शामिल नहीं किया है। इसके बजाय, ये LAION द्वारा संकलित छवि लिंक और छवि वैकल्पिक पाठ का इंडेक्स हैं, जो सभी एक अन्य डेटा सेट - Common Crawl से हैं, जिसमें कैश की गई वेबसाइटें और वेब पृष्ठ शामिल हैं।
चित्र स्रोत नोट: चित्र AI द्वारा उत्पन्न, चित्र लाइसेंस सेवा प्रदाता Midjourney द्वारा
Re-LAION-5B का प्रकाशन 2023 के दिसंबर में स्टैनफोर्ड इंटरनेट ऑब्जर्वेटरी द्वारा की गई जांच के बाद किया गया, जिसमें पाया गया कि LAION-5B (विशेष रूप से LAION-5B400M नामक उप-सेट) में कम से कम 1,679 अवैध छवि लिंक शामिल थे जो सोशल मीडिया पोस्ट और लोकप्रिय वयस्क वेबसाइटों से कैश किए गए थे। रिपोर्ट के अनुसार, 400M में "विभिन्न अनुचित सामग्री" के लिंक भी शामिल थे, जिसमें अश्लील चित्र, नस्लीय मानहानि और हानिकारक सामाजिक रूढ़ियाँ शामिल थीं।
हालांकि रिपोर्ट के स्टैनफोर्ड विश्वविद्यालय के सह-लेखकों ने संकेत दिया कि अवैध सामग्री को हटाना कठिन होगा और CSAM की उपस्थिति आवश्यक रूप से डेटा सेट पर प्रशिक्षित मॉडल के आउटपुट को प्रभावित नहीं करती है, लेकिन LAION ने कहा कि वे अस्थायी रूप से LAION-5B को ऑफ़लाइन रखेंगे।
स्टैनफोर्ड रिपोर्ट ने सुझाव दिया कि LAION-5B पर प्रशिक्षित मॉडल "अवहेलना की जानी चाहिए और जहाँ तक संभव हो वितरण रोक दिया जाना चाहिए।" शायद इसी संदर्भ में, AI स्टार्टअप Runway ने हाल ही में AI होस्टिंग प्लेटफॉर्म Hugging Face से अपने Stable Diffusion1.5 मॉडल को हटा लिया है; हमने इस कंपनी से अधिक जानकारी के लिए संपर्क किया है। (Runway ने 2023 में Stable Diffusion के पीछे की कंपनी Stability AI के साथ मिलकर मूल Stable Diffusion मॉडल को प्रशिक्षित करने में मदद की।)
नया Re-LAION-5B डेटा सेट लगभग 55 अरब पाठ-छवि जोड़े शामिल करता है और इसे Apache 2.0 लाइसेंस के तहत जारी किया गया है। LAION का कहना है कि तीसरे पक्ष मौजूदा LAION-5B की प्रतियों को साफ करने के लिए मेटाडेटा का उपयोग कर सकते हैं, अवैध सामग्री को हटाकर।
LAION ने जोर देकर कहा कि इसका डेटा सेट अनुसंधान के लिए है, व्यावसायिक उद्देश्यों के लिए नहीं। लेकिन यदि इतिहास कुछ भी सिखाता है, तो यह कुछ संगठनों को रोकने वाला नहीं है। Stability AI के अलावा, Google ने भी अपने छवि जनरेशन मॉडल को प्रशिक्षित करने के लिए LAION डेटा सेट का उपयोग किया है।
LAION ने पोस्ट में आगे कहा: "हमारे भागीदारों द्वारा प्रदान किए गए लिंक और छवि हैश सूचियों के मिलान के बाद कुल 2,236 [संशय CSAM की ओर इशारा करने वाले] लिंक हटाए गए हैं।" "इन लिंक में 2023 के दिसंबर में स्टैनफोर्ड इंटरनेट ऑब्जर्वेटरी रिपोर्ट में पाए गए 1008 लिंक भी शामिल हैं... हम सभी शोध प्रयोगशालाओं और संगठनों को जो अभी भी पुराने LAION-5B का उपयोग कर रहे हैं, से अनुरोध करते हैं कि वे जल्द से जल्द Re-LAION-5B डेटा सेट में स्थानांतरित हों।"