हाल ही में, LAION ने एक सुरक्षित रूप से जांचे गए नए संस्करण AI प्रशिक्षण डेटा सेट - Re-LAION-5B की घोषणा की। यह नया डेटा सेट पहले से लोकप्रिय LAION-5B के आधार पर महत्वपूर्ण सुधारों के साथ आया है, विशेष रूप से बच्चों के यौन शोषण सामग्री (CSAM) से संबंधित लिंक को साफ करने में। LAION ने कहा कि Re-LAION-5B विश्व का पहला वेब-स्केल डेटा सेट है जो टेक्स्ट-इमेज जोड़ी डेटा सेट पर ज्ञात CSAM लिंक को पूरी तरह से हटा देता है।
LAION के प्रवक्ता ने उल्लेख किया कि Re-LAION-5B मुख्य रूप से दो संस्करणों में विभाजित है: Re-LAION-5B Research और Re-LAION-5B Research-Safe। इस नए डेटा सेट में कुल 2,236 लिंक हटा दिए गए हैं, जिन्हें बच्चों की सुरक्षा संगठनों के सहयोग से प्रदान की गई सूची के आधार पर जांचा गया। इनमें से, 1,008 लिंक स्टैनफोर्ड इंटरनेट ऑब्जर्वेटरी द्वारा 2023 में प्रकाशित रिपोर्ट में पुष्टि किए गए थे।
यह उल्लेखनीय है कि LAION ने बताया कि कई ज्ञात बच्चों के यौन शोषण सामग्री लिंक शायद अब सक्रिय नहीं हैं, क्योंकि संबंधित संस्थाएं इन सामग्री को सार्वजनिक इंटरनेट से हटाने के लिए लगातार प्रयास कर रही हैं। इसलिए, यह संख्या एक संभावित ऊपरी सीमा का प्रतिनिधित्व करती है, वास्तव में संदर्भित किए जाने वाले CSAM लिंक कम हो सकते हैं। Re-LAION-5B वर्तमान में 55 अरब टेक्स्ट और इमेज जोड़े शामिल करता है, जिन्हें तीसरे पक्ष मौजूदा LAION-5B व्युत्पन्न कार्यों को साफ करने, भिन्नताएँ उत्पन्न करने और सभी मिलान सामग्री को हटाने के लिए इन मेटाडेटा का उपयोग कर सकते हैं।
LAION की उम्मीद है कि Re-LAION-5B को जारी करके, वे वेब-स्केल डेटा सेट को साफ करने के लिए एक नया सुरक्षा मानक स्थापित कर सकें। यह अपडेट मूल LAION-5B डेटा सेट की आलोचना के बाद किया गया था, जिसमें मरीजों की छवियाँ शामिल थीं। इस बीच, LAION ने यह भी बताया कि AI प्रशिक्षण डेटा सेट में CSAM की उपस्थिति एक गंभीर समस्या है, खासकर कुछ प्रशिक्षित सिस्टमों का उपयोग CSAM सामग्री उत्पन्न करने के लिए किया गया है।
इंटरनेट ऑब्जर्वेशन फाउंडेशन (IWF) की रिपोर्ट के अनुसार, 2023 की शरद ऋतु से AI द्वारा उत्पन्न बच्चों के यौन शोषण सामग्री में बड़ी वृद्धि हुई है। इस AI सामग्री की वृद्धि न केवल वास्तविक बच्चों के शोषण मामलों की जांच में बाधा डालती है, बल्कि सोशल मीडिया प्लेटफार्मों द्वारा स्वचालित रूप से उत्पन्न CSAM की रिपोर्ट की संख्या में भी वृद्धि करती है, जो समस्या की जटिलता को और बढ़ाती है।
मुख्य बिंदु:
🌟 Re-LAION-5B विश्व का पहला वेब-स्केल डेटा सेट है जो टेक्स्ट-इमेज जोड़ी डेटा सेट पर CSAM लिंक को पूरी तरह से साफ करता है।
🔗 2,236 लिंक हटाए गए हैं, जिनमें से 1,008 ज्ञात लिंक बच्चों की सुरक्षा संगठनों से हैं।
🛡️ LAION की आशा है कि नया डेटा सेट वेब-स्केल डेटा सेट को साफ करने के लिए एक नया सुरक्षा मानक स्थापित करेगा।