के अनुसार "कनेक्शन" पत्रिका की रिपोर्ट, Apple, NVIDIA, Anthropic और Salesforce जैसी कई तकनीकी दिग्गजों को अनुमति के बिना हजारों YouTube वीडियो का उपयोग करके अपने कृत्रिम बुद्धिमत्ता मॉडल को प्रशिक्षित करते हुए पाया गया है, जिससे गंभीर कॉपीराइट और नैतिक विवाद उत्पन्न हुए हैं।
रिपोर्ट में खुलासा हुआ है कि इन कंपनियों ने विभिन्न YouTube वीडियो के सबटाइटल को अपने AI प्रशिक्षण डेटा सेट में एकीकृत किया है। प्रभावित रचनाकारों की एक विस्तृत श्रृंखला है, जिसमें प्रसिद्ध ब्लॉगर MKBHD, MrBeast, Jacksepticeye, टॉक शो होस्ट स्टीफन कोलबर्ट, जॉन ओलिवर और जिमी किमेल, और MIT, खान अकादमी, हार्वर्ड विश्वविद्यालय जैसे शैक्षणिक चैनल शामिल हैं, साथ ही वॉल स्ट्रीट जर्नल, NPR जैसे मुख्यधारा के मीडिया भी।
छवि स्रोत नोट: छवि AI द्वारा उत्पन्न, छवि लाइसेंस सेवा प्रदाता Midjourney
ये डेटा वास्तव में एक गैर-लाभकारी संगठन Eleuther AI द्वारा डाउनलोड और व्यवस्थित किए गए थे। इस संगठन ने इन सामग्रियों को अपने प्रकाशित "The Pile" बड़े डेटा सेट के एक भाग के रूप में प्रस्तुत किया, जिसका उद्देश्य छोटे डेवलपर्स और शोधकर्ताओं को प्रशिक्षण सामग्री प्रदान करना था। हालांकि, इन डेटा सेट का बाद में विभिन्न तकनीकी कंपनियों द्वारा उपयोग किया गया।
यह ध्यान देने योग्य है कि Apple जैसी कंपनियों ने सीधे YouTube से इन डेटा को डाउनलोड नहीं किया, बल्कि Eleuther AI द्वारा व्यवस्थित डेटा सेट का उपयोग किया। तकनीकी दृष्टिकोण से, YouTube के उपयोग की शर्तों का सीधे उल्लंघन Eleuther AI द्वारा किया गया है, न कि इन तकनीकी कंपनियों द्वारा।
यह घटना AI प्रशिक्षण डेटा के स्रोतों की वैधता और नैतिकता पर चर्चा को उत्पन्न करती है। यह तेजी से विकसित हो रहे AI क्षेत्र में डेटा कॉपीराइट और उपयोग की अनुमति के महत्व को उजागर करती है, और मौजूदा कानूनों और नियमों की उन नई तकनीकी चुनौतियों का सामना करने में कमी को दर्शाती है। साथ ही, यह रचनाकारों, प्लेटफार्मों और AI कंपनियों के बीच अधिकारों के संतुलन पर नए विचार लाती है।