हाल ही में, Trilegangers के CEO Oleksandr Tomchuk को एक अलार्म मिला कि उनकी कंपनी की ई-कॉमर्स वेबसाइट डाउन हो गई है। जांच करने पर, उन्होंने पाया कि इसके पीछे कारण OpenAI का एक बॉट था, जो उनकी विशाल वेबसाइट को क्रॉल करने की लगातार कोशिश कर रहा था। इस वेबसाइट पर 65,000 से अधिक उत्पाद हैं, प्रत्येक उत्पाद के लिए एक पृष्ठ है, जिसमें कम से कम तीन तस्वीरें हैं। OpenAI ने "दर्जनों" सर्वर अनुरोध भेजे, सभी सामग्री, लाखों तस्वीरें और उनके विस्तृत विवरण डाउनलोड करने की कोशिश की। 

टॉमचुक ने कहा कि OpenAI का क्रॉलर उनकी वेबसाइट को नष्ट कर रहा है, यह मूल रूप से एक DDoS हमला है। यह कंपनी 3D ऑब्जेक्ट फाइलें और तस्वीरें (हाथ से लेकर बाल, त्वचा और पूरे शरीर तक) 3D कलाकारों, वीडियो गेम निर्माताओं और किसी भी व्यक्ति को बेचती है जिसे वास्तविक मानव विशेषताओं को डिजिटल रूप से पुन: प्रस्तुत करने की आवश्यकता होती है। 

Trilegangers की वेबसाइट उनके व्यवसाय का केंद्र है। इस कंपनी ने एक दशक से अधिक समय बिताया है, जिसे "इंटरनेट पर सबसे बड़ा 'मानव डिजिटल डुप्लीकेट' डेटाबेस" कहा जाता है, जो असली मानव मॉडल के स्कैन से प्राप्त 3D इमेज फाइलें हैं। 

टॉमचुक की टीम यूक्रेन में स्थित है, लेकिन उन्हें अमेरिका के फ्लोरिडा राज्य के टांपा शहर से भी अनुमति मिली है, उनकी वेबसाइट पर एक सेवा की शर्तों का पृष्ठ है, जो बिना अनुमति के उनके चित्रों को कैप्चर करने के लिए बॉट्स पर प्रतिबंध लगाता है। लेकिन केवल इसी से कुछ नहीं हुआ। वेबसाइट को सही तरीके से कॉन्फ़िगर किए गए robot.txt फ़ाइल का उपयोग करना चाहिए, जिसमें टैग स्पष्ट रूप से OpenAI के बॉट GPTBot को वेबसाइट को परेशान न करने के लिए बताता है। 

openai-crawler-log-2-e1736526937976.jpg

Robot.txt, जिसे रोबोट बहिष्करण प्रोटोकॉल भी कहा जाता है, का उपयोग यह बताने के लिए किया जाता है कि खोज इंजन वेबसाइट को अनुक्रमित करते समय कौन सी सामग्री को क्रॉल नहीं करना चाहिए। OpenAI ने अपनी जानकारी पृष्ठ पर कहा है कि जब वह अपनी एक सेट को रोकने वाले टैग के साथ कॉन्फ़िगर किया जाता है, तो वह इस प्रकार की फ़ाइलों का सम्मान करेगा, लेकिन यह भी चेतावनी देता है कि उसके बॉट को अपडेट किए गए robot.txt फ़ाइल को पहचानने में 24 घंटे तक का समय लग सकता है। 

टॉमचुक ने कहा कि यदि किसी वेबसाइट ने robot.txt का सही ढंग से उपयोग नहीं किया, तो OpenAI और अन्य कंपनियां यह मान लेंगी कि वे डेटा को अपनी इच्छानुसार क्रॉल कर सकती हैं। यह एक वैकल्पिक प्रणाली नहीं है। 

बात और भी खराब है कि Trilegangers केवल अमेरिका के कार्यकाल में OpenAI के बॉट द्वारा मजबूर होकर ऑफ़लाइन नहीं हुए, बल्कि टॉमचुक को उम्मीद है कि उस बॉट की सभी CPU और डाउनलोड गतिविधियों के कारण AWS बिल भी काफी बढ़ जाएगा। 

Robot.txt भी कोई संपूर्ण समाधान नहीं है। AI कंपनियां स्वेच्छा से इसका पालन करती हैं। पिछले गर्मियों में, एक और AI स्टार्टअप Perplexity को कुछ सबूतों के कारण Wired की जांच का सामना करना पड़ा कि Perplexity इसका पालन नहीं कर रहा था, यह घटना काफी प्रसिद्ध थी। 

टॉमचुक ने कहा कि उन्होंने OpenAI से संपर्क करने और पूछने का कोई तरीका नहीं पाया। OpenAI ने TechCrunch की टिप्पणी के अनुरोध का जवाब नहीं दिया। OpenAI अब तक अपने दीर्घकालिक प्रतिबद्धता के अनुसार ऑप्ट-आउट टूल प्रदान करने में असफल रहा है। 

Triplegangers के लिए, यह एक विशेष रूप से पेचीदा मुद्दा है। "हम जिस व्यवसाय में हैं, वहां अधिकारों का मुद्दा काफी गंभीर है, क्योंकि हम असली लोगों को स्कैन कर रहे हैं," उन्होंने कहा। यूरोपीय GDPR जैसे कानूनों के अनुसार, "वे किसी की भी तस्वीर को इंटरनेट पर कैप्चर नहीं कर सकते और फिर उसका उपयोग कर सकते हैं।" 

हैकर, साइबर हमले, कोड लिखना

विडंबना यह है कि OpenAI के बॉट की लालच ने Triplegangers को यह एहसास कराया कि यह कितना उजागर है। उन्होंने कहा कि अगर यह अधिक नरम तरीके से स्क्रैप करता, तो टॉमचुक कभी नहीं जान पाते। 

“यह भयानक है, क्योंकि ये कंपनियां डेटा को क्रॉल करने के लिए एक खामी का फायदा उठा रही हैं, वे कहती हैं 'यदि आप हमारे टैग के साथ अपने robot.txt को अपडेट करते हैं, तो आप ऑप्ट-आउट कर सकते हैं',” टॉमचुक ने कहा, लेकिन इससे व्यापार मालिकों को यह समझने की जिम्मेदारी मिलती है कि उन्हें कैसे रोकना है। 

वह चाहते हैं कि अन्य छोटे ऑनलाइन व्यवसाय जानें कि यह जानने का एकमात्र तरीका कि क्या AI बॉट उनकी वेबसाइट की कॉपीराइट संपत्तियों को चुरा रहा है, सक्रिय रूप से देखना है। निश्चित रूप से वह एकमात्र नहीं हैं जो AI बॉट्स द्वारा धमकाए गए हैं। अन्य वेबसाइट के मालिकों ने हाल ही में Business Insider को बताया कि OpenAI बॉट्स कैसे उनकी वेबसाइटों को नष्ट कर रहे हैं और उनके AWS खर्च बढ़ा रहे हैं। 

2024 तक, यह समस्या और भी खराब हो जाएगी। डिजिटल विज्ञापन कंपनी DoubleVerify के नवीनतम शोध में पाया गया है कि AI क्रॉलर और क्रॉलिंग उपकरणों के कारण 2024 में "सामान्य अप्रभावी ट्रैफ़िक" में 86% की वृद्धि हुई है, जो कि वास्तविक उपयोगकर्ताओं से नहीं आती है।