डेटा-चालित एआई युग में, मजबूत मॉडलों को प्रशिक्षित करने के लिए बड़े पैमाने पर डेटा प्राप्त करना एक कुंजी बन गई है। हालाँकि, डेटा प्राप्त करने के तरीकों ने विवाद को जन्म दिया है। हाल ही में, क्लॉड टीम की अनुचित डेटा खींचने की गतिविधियों ने सार्वजनिक आक्रोश को भड़काया।

इस घटना की शुरुआत तब हुई जब क्लॉड टीम के वेब क्रॉलर ने 24 घंटों के भीतर किसी कंपनी के सर्वर पर 1 मिलियन बार पहुंचकर बिना भुगतान किए वेबसाइट की सामग्री को खींचा। यह कार्य न केवल वेबसाइट के "क्रॉलिंग निषिद्ध" नोटिस की स्पष्ट अवहेलना करता है, बल्कि यह बड़े पैमाने पर सर्वर संसाधनों का उपयोग भी करता है।

पीड़ित कंपनी ने अपनी रक्षा के लिए हर संभव प्रयास किया, लेकिन अंततः क्लॉड टीम के डेटा खींचने को रोकने में असफल रही। कंपनी के प्रमुख ने सोशल मीडिया पर गुस्से से अपनी आवाज उठाई और क्लॉड टीम के कार्यों की निंदा की। कई नेटिज़न्स ने भी अपनी असंतोष व्यक्त किया, कुछ ने तो इस व्यवहार को "चोरी" शब्द से वर्णित करने का सुझाव दिया।

image.png

इस मामले में शामिल कंपनी iFixit है, जो एक अमेरिकी ई-कॉमर्स और संचालन मार्गदर्शिका वेबसाइट है। iFixit उपभोक्ता इलेक्ट्रॉनिक्स और गैजेट्स को कवर करने वाले लाखों पृष्ठों के मुफ्त ऑनलाइन मरम्मत गाइड प्रदान करता है। हालाँकि, iFixit ने पाया कि क्लॉड का वेब क्रॉलर क्लॉडबॉट ने थोड़े समय में बड़े पैमाने पर अनुरोध किए, एक दिन में 10TB की फ़ाइलों तक पहुंच बनाई, और पूरे मई महीने में कुल 73TB तक पहुंच बनाई।

iFixit के सीईओ काइल वीन्स ने कहा कि क्लॉडबॉट ने उनकी सभी डेटा "चुरा" ली है और सर्वर संसाधनों का उपयोग किया है। हालाँकि iFixit ने अपनी वेबसाइट पर स्पष्ट रूप से बिना अनुमति के डेटा खींचने पर प्रतिबंध लगाया है, क्लॉड टीम ऐसा लगता है कि इसे नजरअंदाज कर रही है।

क्लॉड टीम का व्यवहार एकमात्र मामला नहीं है। इस वर्ष अप्रैल में, लिनक्स मिंट फोरम भी क्लॉडबॉट के लगातार दौरे का शिकार हुआ, जिससे फोरम धीमा हो गया और यहां तक कि क्रैश हो गया। इसके अलावा, कुछ आवाजें यह भी बता रही हैं कि क्लॉड और ओपनएआई के जीपीटी के अलावा, कई अन्य एआई कंपनियाँ भी वेबसाइट के robots.txt सेटिंग्स की अनदेखी कर रही हैं और डेटा को मजबूरन खींच रही हैं।

इस स्थिति का सामना करते हुए, कुछ ने वेबसाइट मालिकों को पृष्ठों में ट्रैक करने योग्य या अद्वितीय जानकारी के साथ गलत सामग्री जोड़ने का सुझाव दिया है, ताकि यह पता लगाया जा सके कि डेटा को अवैध रूप से खींचा गया है या नहीं। iFixit ने वास्तव में इस उपाय को अपनाया है और पाया कि उनका डेटा न केवल क्लॉड द्वारा, बल्कि ओपनएआई द्वारा भी खींचा गया है।

यह घटना एआई कंपनियों के डेटा खींचने के व्यवहार पर व्यापक चर्चा का कारण बनी है। एक ओर, एआई के विकास के लिए वास्तव में बड़े पैमाने पर डेटा की आवश्यकता होती है; दूसरी ओर, डेटा खींचने को वेबसाइट मालिकों के अधिकारों और नियमों का सम्मान करना चाहिए। तकनीकी प्रगति को बढ़ावा देने और कॉपीराइट की रक्षा के बीच संतुलन कैसे स्थापित किया जाए, यह समग्र उद्योग के लिए विचार करने का एक मुद्दा है।