कृत्रिम बुद्धिमत्ता के तेजी से विकास के पीछे, कुछ तकनीकी दिग्गज चुपचाप विवादास्पद तरीकों को अपनाते हैं। उन्होंने न केवल किताबों, वेबसाइटों, तस्वीरों और सोशल मीडिया पोस्टों को "सुखा" दिया, बल्कि रचनाकारों की जानकारी के बिना, YouTube वीडियो का बड़े पैमाने पर उपयोग करके अपने AI मॉडल को प्रशिक्षित किया।
मेरे वीडियो को किसने छेड़ा?
Proof News की जांच के अनुसार, सिलिकॉन वैली के दिग्गजों ने, जिनमें Anthropic, NVIDIA, Apple और Salesforce शामिल हैं, AI को प्रशिक्षित करने के लिए 173,536 YouTube वीडियो के सबटाइटल डेटा का उपयोग किया। ये वीडियो 48,000 से अधिक चैनलों से आए हैं, हालांकि YouTube ने स्पष्ट रूप से अपने प्लेटफॉर्म से बिना अनुमति सामग्री को स्क्रैप करने पर रोक लगा दी है।
इन डेटा सेटों को "YouTube Subtitles" कहा जाता है, जिसमें Khan Academy, MIT और हार्वर्ड जैसे शैक्षिक और ऑनलाइन लर्निंग चैनलों से वीडियो सबटाइटल शामिल हैं। Wall Street Journal, NPR और BBC के वीडियो भी AI को प्रशिक्षित करने के लिए उपयोग किए गए, यहां तक कि "Stephen Colbert रात का शो", "John Oliver इस सप्ताह रात" और "Jimmy Kimmel Live" भी शामिल हैं।
Proof News ने यह भी पाया कि YouTube के सुपरस्टार्स जैसे MrBeast (289 मिलियन सब्सक्राइबर, 2 वीडियो का उपयोग प्रशिक्षण के लिए), Marques Brownlee (19 मिलियन सब्सक्राइबर, 7 वीडियो का उपयोग प्रशिक्षण के लिए), Jacksepticeye (लगभग 31 मिलियन सब्सक्राइबर, 377 वीडियो का उपयोग प्रशिक्षण के लिए) और PewDiePie (111 मिलियन सब्सक्राइबर, 337 वीडियो का उपयोग प्रशिक्षण के लिए) के वीडियो भी AI को प्रशिक्षित करने के लिए उपयोग किए गए। कुछ सामग्री जो AI को प्रशिक्षित करने के लिए उपयोग की गई, यहां तक कि "पृथ्वी सपाट है" जैसे साजिश सिद्धांतों का प्रचार भी करती है।
रचनाकारों का गुस्सा
“कोई मेरे पास नहीं आया और कहा, 'हम इसे उपयोग करना चाहते हैं'”, "David Pakman Show" के होस्ट David Pakman ने कहा। उनके चैनल के 2 मिलियन से अधिक सब्सक्राइबर और 2 बिलियन से अधिक दृश्य हैं, लेकिन लगभग 160 वीडियो YouTube Subtitles प्रशिक्षण डेटा सेट में शामिल किए गए हैं।
Pakman की टीम पूर्णकालिक काम करती है, हर दिन कई वीडियो पोस्ट करती है, और पॉडकास्ट, TikTok वीडियो और अन्य प्लेटफार्मों के लिए सामग्री बनाती है। अगर AI कंपनियां इसके लिए भुगतान करती हैं, तो Pakman का कहना है कि उन्हें अपने डेटा के उपयोग के लिए मुआवजा मिलना चाहिए। उन्होंने बताया कि कुछ मीडिया कंपनियों ने हाल ही में अपने काम को AI को प्रशिक्षित करने के लिए उपयोग करने के लिए भुगतान प्राप्त करने के लिए समझौतों पर हस्ताक्षर किए हैं।
Nebula के CEO Dave Wiskus ने सीधे तौर पर कहा: "यह चोरी है"। Nebula एक स्ट्रीमिंग सेवा है जो आंशिक रूप से रचनाकारों द्वारा स्वामित्व में है, और कुछ रचनाकारों के काम को YouTube से हटा दिया गया है, ताकि AI को प्रशिक्षित किया जा सके।
डेटा सेट का "सोने का खजाना"
AI कंपनियां उच्च गुणवत्ता वाले डेटा प्राप्त करके एक-दूसरे के खिलाफ प्रतिस्पर्धा करती हैं, यही कारण है कि वे अपने डेटा स्रोतों को गुप्त रखती हैं। "New York Times" ने इस वर्ष की शुरुआत में रिपोर्ट किया था कि Google (जिसके पास YouTube है) ने अपने मॉडल को प्रशिक्षित करने के लिए प्लेटफॉर्म पर वीडियो टेक्स्ट का भी उपयोग किया। इसके जवाब में, एक प्रवक्ता ने कहा कि उनका उपयोग YouTube रचनाकारों की सहमति से किया गया है।
Proof News की जांच ने यह भी पाया कि OpenAI ने बिना अनुमति के YouTube वीडियो का उपयोग किया। कंपनी के प्रतिनिधियों ने न तो इस खोज की पुष्टि की और न ही खंडन किया।
कानूनी और नैतिक चुनौतियाँ
YouTube Subtitles और अन्य प्रकार के वॉयस-टू-टेक्स्ट डेटा संभावित "सोने के खजाने" हैं, क्योंकि वे मॉडल को लोगों की बातचीत और संवाद के तरीके की नकल करने में मदद कर सकते हैं। हालाँकि, यह कॉपीराइट और नैतिकता के विवादों को भी जन्म देता है। कई रचनाकार चिंतित हैं कि उनके काम को AI को प्रशिक्षित करने के लिए उपयोग किया जा रहा है, जो अंततः उनके काम को प्रतिस्थापित कर सकता है।
Proof News ने इस लेख में उल्लिखित चैनलों के मालिकों से संपर्क करने की कोशिश की। कई लोगों ने टिप्पणी के अनुरोध का जवाब नहीं दिया। जिन रचनाकारों का हमनें साक्षात्कार लिया, उनमें से कोई भी यह नहीं जानता था कि उनकी जानकारी ली गई है, और न ही यह कि इसका उपयोग कैसे किया गया।
भविष्य की अनिश्चितता
कई रचनाकार भविष्य के मार्ग को लेकर अनिश्चित हैं। पूर्णकालिक YouTuber नियमित रूप से अपने कामों के बिना अनुमति के उपयोग की स्थिति की निगरानी करते हैं, और नियमित रूप से हटाने के नोटिस भेजते हैं। कुछ लोग चिंतित हैं कि AI अंततः उनके द्वारा बनाए गए सामग्री के समान सामग्री उत्पन्न कर सकेगा, या यहां तक कि सीधे नकल कर सकेगा।
"David Pakman Show" के रचनाकार Pakman ने हाल ही में TikTok पर AI की शक्ति को देखा। उन्होंने एक वीडियो देखा जो Tucker Carlson के क्लिप के रूप में चिह्नित था, लेकिन जब उन्होंने इसे देखा, तो वे चौंक गए। यह Carlson की तरह लग रहा था, लेकिन हर शब्द Pakman के YouTube शो में कहे गए थे, और यहां तक कि स्वर भी बिल्कुल वही था। उन्हें यह भी आश्चर्य हुआ कि वीडियो में केवल एक टिप्पणीकार ही इस बात का एहसास करता था कि यह नकली है - एक ऐसा व्यक्ति जिसने Carlson की आवाज की नकल की और Pakman की स्क्रिप्ट का अनुकरण किया।
“यह एक समस्या होगी,” Pakman ने अपने द्वारा बनाए गए नकली वीडियो पर YouTube वीडियो में कहा। “आप लगभग किसी के साथ इसे कर सकते हैं।”
EleutherAI के सह-संस्थापक Sid Black ने GitHub पर लिखा कि उन्होंने YouTube Subtitles बनाने के लिए स्क्रिप्ट का उपयोग किया। यह स्क्रिप्ट YouTube दर्शकों के ब्राउज़र द्वारा वीडियो देखने के समय सबटाइटल डाउनलोड करने के तरीके से डाउनलोड करती है। GitHub पर दस्तावेज़ के अनुसार, Black ने "दिलचस्प वीडियो ब्लॉगर", "आइंस्टीन", "काले प्रोटेस्टेंट", "सुरक्षात्मक सामाजिक सेवाएं", "जानकारी युद्ध", "क्वांटम कलर डाइनैमिक्स", "Ben Shapiro", "उइगर", "फ्रूटेरियन", "केक की रेसिपी", "नास्का लाइन्स" और "पृथ्वी सपाट है" सहित 495 खोजशब्दों का उपयोग किया।
हालांकि YouTube की सेवा की शर्तें "स्वचालित तरीकों" से अपने वीडियो तक पहुंचने पर रोक लगाती हैं, 2000 से अधिक GitHub उपयोगकर्ताओं ने पहले ही इस कोड को संग्रहित या मान्यता दी है।
“अगर YouTube इस मॉड्यूल को काम करने से रोकना चाहता है, तो इसके लिए कई तरीके हैं,” मशीन लर्निंग इंजीनियर Jonas Depoix ने GitHub पर चर्चा में लिखा, जहां उन्होंने Black द्वारा YouTube सबटाइटल तक पहुंचने के लिए उपयोग किए गए कोड को पोस्ट किया। “अब तक, ऐसा नहीं हुआ है।”
एक ईमेल में, Depoix ने Proof News को बताया कि उन्होंने कुछ साल पहले एक विश्वविद्यालय के छात्र के रूप में एक परियोजना के लिए कोड लिखा था और तब से इसका उपयोग नहीं किया है, और लोगों द्वारा इसे उपयोगी पाए जाने पर आश्चर्यचकित हैं। उन्होंने YouTube के नियमों के बारे में प्रश्नों का उत्तर देने से इनकार कर दिया।
Google के प्रवक्ता Jack Malon ने एक ईमेल में टिप्पणी के अनुरोध का उत्तर देते हुए कहा कि कंपनी ने वर्षों से "दुरुपयोग, बिना अनुमति की स्क्रैपिंग" को रोकने के लिए कदम उठाए हैं। उन्होंने इन सामग्रियों का उपयोग प्रशिक्षण डेटा के रूप में करने वाली अन्य कंपनियों के बारे में प्रश्नों का उत्तर नहीं दिया।
AI कंपनियों द्वारा उपयोग किए गए वीडियो में "Einstein Parrot" के 146 वीडियो शामिल हैं, जो चैनल के पास लगभग 150,000 सब्सक्राइबर हैं। अफ्रीकी ग्रे तोते की देखभाल करने वाली Marcia (जो अपने प्रसिद्ध तोते की सुरक्षा को लेकर चिंता के कारण अपना उपनाम नहीं बताना चाहती) ने शुरू में सोचा कि AI मॉडल द्वारा तोते की बातों की नकल करना दिलचस्प है।
“कौन तोते की आवाज का उपयोग करना चाहेगा?” Marcia ने कहा। “लेकिन बाद में, मैंने जाना कि वह बहुत अच्छा बोलता है। वह मेरी आवाज में बोलता है। इसलिए वह मेरी नकल कर रहा है, और फिर AI तोते की नकल कर रहा है।”
एक बार डेटा AI द्वारा अवशोषित होने के बाद, इसे "भूलना" संभव नहीं है। Marcia को चिंता है कि तोते की जानकारी का उपयोग अज्ञात तरीकों से किया जा सकता है, जिसमें डिजिटल कॉपी तोते का निर्माण करना और इसे गंदे शब्द बोलने के लिए मजबूर करना शामिल है।
“हम अज्ञात क्षेत्र में प्रवेश कर रहे हैं,” Marcia ने कहा।
संदर्भ लिंक:
https://www.wired.com/story/youtube-training-data-apple-nvidia-anthropic/
https://arstechnica.com/ai/2024/07/apple-was-among-the-companies-that-trained-its-ai-on-youtube-videos/