हाल ही में, मैसाचुसेट्स के एक YouTube निर्माता डेविड मिलेट (David Millette) ने OpenAI के खिलाफ सामूहिक मुकदमा दायर किया, जिसमें आरोप लगाया गया कि कंपनी ने अनुमति के बिना लाखों YouTube वीडियो के ट्रांसक्रिप्ट सामग्री का उपयोग अपने जनरेटिव आर्टिफिशियल इंटेलिजेंस मॉडल को प्रशिक्षित करने के लिए किया। कैलिफोर्निया के उत्तरी जिले की संघीय अदालत में मिलेट के वकील द्वारा दायर शिकायत के अनुसार, OpenAI पर आरोप है कि उसने चुपचाप उसके और अन्य निर्माताओं के वीडियो की सामग्री का ट्रांसक्रिप्शन किया, ताकि वह अपने ChatGPT और अन्य जनरेटिव एआई उत्पादों के मॉडल को प्रशिक्षित कर सके।
शिकायत में कहा गया है कि OpenAI ने इन डेटा को इकट्ठा करके स्पष्ट रूप से निर्माताओं के काम से लाभ उठाया, जो कि कॉपीराइट कानून और YouTube की सेवा की शर्तों का उल्लंघन है, जो वीडियो को अपनी सेवा के अलावा अन्य अनुप्रयोगों में उपयोग करने से रोकता है। मिलेट के वकील ने शिकायत में लिखा है कि OpenAI के एआई उत्पाद उन प्रशिक्षण डेटा के उपयोग के कारण अधिक मूल्यवान हो गए हैं, जो बिना अनुमति, कोई श्रेय या मुआवजा दिए बिना उपयोग किए गए हैं।
मिलेट का प्रतिनिधित्व करने वाले वकील ने जूरी परीक्षण की मांग की है और सभी संभावित प्रभावित YouTube उपयोगकर्ताओं और निर्माताओं के नुकसान के लिए 5000000 डॉलर से अधिक का मुआवजा मांगा है।
यह ज्ञात है कि जनरेटिव एआई मॉडल में वास्तव में कोई बुद्धिमत्ता नहीं होती। वे डेटा के संभावितता और पैटर्न को सीखने के लिए बड़ी मात्रा में डेटा नमूनों (जैसे कि फिल्में, रिकॉर्डिंग, पेपर आदि) को संसाधित करते हैं। कई मॉडल का प्रशिक्षण डेटा इंटरनेट पर सार्वजनिक वेबसाइटों और डेटा सेट से आता है। हालांकि कंपनियों का दावा है कि उनका डेटा संग्रह "उचित उपयोग" के सिद्धांतों के अनुरूप है, लेकिन कई कॉपीराइट धारक इससे असहमत हैं और इस प्रथा को रोकने के लिए मुकदमा कर रहे हैं।
वीडियो ट्रांसक्रिप्ट सामग्री अब एक महत्वपूर्ण प्रशिक्षण डेटा बन गई है, खासकर जब अन्य डेटा स्रोतों का स्रोत समाप्त हो रहा है। Originality.AI के डेटा के अनुसार, वर्तमान में दुनिया भर के 35% से अधिक शीर्ष वेबसाइटों ने OpenAI के वेब क्रॉलर को अवरुद्ध कर दिया है। इसके अतिरिक्त, मैसाचुसेट्स इंस्टीट्यूट ऑफ टेक्नोलॉजी के डेटा स्रोत पहल के अनुसंधान से पता चलता है कि लगभग 25% उच्च गुणवत्ता वाले डेटा स्रोतों का उपयोग सीमित कर दिया गया है, जिससे एआई मॉडल के प्रशिक्षण डेटा की कमी और बढ़ गई है।
यह उल्लेखनीय है कि OpenAI का व्हिस्पर मॉडल वीडियो ऑडियो को ट्रांसक्रिप्ट करने के लिए विशेष रूप से डिज़ाइन किया गया है ताकि अधिक प्रशिक्षण डेटा इकट्ठा किया जा सके। न्यूयॉर्क टाइम्स की रिपोर्ट के अनुसार, OpenAI टीम ने एक मिलियन घंटे से अधिक YouTube वीडियो का ट्रांसक्रिप्शन करने के बाद, इन ट्रांसक्रिप्ट टेक्स्ट का उपयोग अपने GPT-4 मॉडल को प्रशिक्षित करने के लिए किया। इससे आंतरिक चर्चा हुई कि यह YouTube के नियमों का उल्लंघन कर सकता है।
हाल ही में, मैसाचुसेट्स के एक YouTube निर्माता डेविड मिलेट (David Millette) ने OpenAI के खिलाफ सामूहिक मुकदमा दायर किया, जिसमें आरोप लगाया गया कि कंपनी ने अनुमति के बिना लाखों YouTube वीडियो के ट्रांसक्रिप्ट सामग्री का उपयोग अपने जनरेटिव आर्टिफिशियल इंटेलिजेंस मॉडल को प्रशिक्षित करने के लिए किया। कैलिफोर्निया के उत्तरी जिले की संघीय अदालत में मिलेट के वकील द्वारा दायर शिकायत के अनुसार, OpenAI पर आरोप है कि उसने चुपचाप उसके और अन्य निर्माताओं के वीडियो की सामग्री का ट्रांसक्रिप्शन किया, ताकि वह अपने ChatGPT और अन्य जनरेटिव एआई उत्पादों के मॉडल को प्रशिक्षित कर सके।
शिकायत में कहा गया है कि OpenAI ने इन डेटा को इकट्ठा करके स्पष्ट रूप से निर्माताओं के काम से लाभ उठाया, जो कि कॉपीराइट कानून और YouTube की सेवा की शर्तों का उल्लंघन है, जो वीडियो को अपनी सेवा के अलावा अन्य अनुप्रयोगों में उपयोग करने से रोकता है। मिलेट के वकील ने शिकायत में लिखा है कि OpenAI के एआई उत्पाद उन प्रशिक्षण डेटा के उपयोग के कारण अधिक मूल्यवान हो गए हैं, जो बिना अनुमति, कोई श्रेय या मुआवजा दिए बिना उपयोग किए गए हैं।
मिलेट का प्रतिनिधित्व करने वाले वकील ने जूरी परीक्षण की मांग की है और सभी संभावित प्रभावित YouTube उपयोगकर्ताओं और निर्माताओं के नुकसान के लिए 5000000 डॉलर से अधिक का मुआवजा मांगा है।
यह ज्ञात है कि जनरेटिव एआई मॉडल में वास्तव में कोई बुद्धिमत्ता नहीं होती। वे डेटा के संभावितता और पैटर्न को सीखने के लिए बड़ी मात्रा में डेटा नमूनों (जैसे कि फिल्में, रिकॉर्डिंग, पेपर आदि) को संसाधित करते हैं। कई मॉडल का प्रशिक्षण डेटा इंटरनेट पर सार्वजनिक वेबसाइटों और डेटा सेट से आता है। हालांकि कंपनियों का दावा है कि उनका डेटा संग्रह "उचित उपयोग" के सिद्धांतों के अनुरूप है, लेकिन कई कॉपीराइट धारक इससे असहमत हैं और इस प्रथा को रोकने के लिए मुकदमा कर रहे हैं।
वीडियो ट्रांसक्रिप्ट सामग्री अब एक महत्वपूर्ण प्रशिक्षण डेटा बन गई है, खासकर जब अन्य डेटा स्रोतों का स्रोत समाप्त हो रहा है। Originality.AI के डेटा के अनुसार, वर्तमान में दुनिया भर के 35% से अधिक शीर्ष वेबसाइटों ने OpenAI के वेब क्रॉलर को अवरुद्ध कर दिया है। इसके अतिरिक्त, मैसाचुसेट्स इंस्टीट्यूट ऑफ टेक्नोलॉजी के डेटा स्रोत पहल के अनुसंधान से पता चलता है कि लगभग 25% उच्च गुणवत्ता वाले डेटा स्रोतों का उपयोग सीमित कर दिया गया है, जिससे एआई मॉडल के प्रशिक्षण डेटा की कमी और बढ़ गई है।
यह उल्लेखनीय है कि OpenAI का व्हिस्पर मॉडल वीडियो ऑडियो को ट्रांसक्रिप्ट करने के लिए विशेष रूप से डिज़ाइन किया गया है ताकि अधिक प्रशिक्षण डेटा इकट्ठा किया जा सके। न्यूयॉर्क टाइम्स की रिपोर्ट के अनुसार, OpenAI टीम ने एक मिलियन घंटे से अधिक YouTube वीडियो का ट्रांसक्रिप्शन करने के बाद, इन ट्रांसक्रिप्ट टेक्स्ट का उपयोग अपने GPT-4 मॉडल को प्रशिक्षित करने के लिए किया। इससे आंतरिक चर्चा हुई कि यह YouTube के नियमों का उल्लंघन कर सकता है।
मुख्य बिंदु:
🔍 YouTuber डेविड मिलेट ने OpenAI के खिलाफ सामूहिक मुकदमा दायर किया, आरोप लगाते हुए कि उसने बिना अनुमति के वीडियो ट्रांसक्रिप्ट सामग्री का उपयोग एआई प्रशिक्षण के लिए किया।
💰 मिलेट सभी प्रभावित YouTube निर्माताओं की ओर से 5000000 डॉलर से अधिक का मुआवजा मांग रहे हैं।
🚫 जनरेटिव एआई मॉडल के डेटा स्रोतों पर बढ़ती सीमाएँ, कई शीर्ष वेबसाइटों ने OpenAI के क्रॉलर को अवरुद्ध कर दिया है।