हाल ही में, एक नए शोध ने चिंता जताई है जिसमें आरोप लगाया गया है कि OpenAI ने अपने नवीनतम AI मॉडल को प्रशिक्षित करते समय O'Reilly मीडिया की पेड किताबों का उपयोग किया, लेकिन अनुमति नहीं ली। यह शोध AI Disclosures Project नामक एक गैर-लाभकारी संगठन द्वारा प्रकाशित किया गया था, जिसकी स्थापना 2024 में मीडिया दिग्गज टिम ओ'रेली और अर्थशास्त्री इलान स्ट्रॉस ने मिलकर की थी।

कॉपीराइट(1)

AI मॉडल को जटिल भविष्य कहनेवाला इंजन माना जा सकता है, जो बड़ी मात्रा में डेटा (किताबें, फिल्में, टेलीविजन कार्यक्रम आदि) से पैटर्न सीखते हैं, जिससे वे साधारण संकेतों का अनुमान लगा सकते हैं। जब मॉडल लिखता है, उदाहरण के लिए, ग्रीक त्रासदियों पर एक लेख लिखना, या एक स्टाइलिश छवि बनाना, तो यह वास्तव में अपने विशाल ज्ञान आधार से जानकारी निकाल रहा है, न कि कुछ नया बना रहा है।

चूँकि अधिक से अधिक AI प्रयोगशालाएँ, जिसमें OpenAI भी शामिल है, वास्तविक दुनिया के डेटा (मुख्य रूप से सार्वजनिक वेब संसाधन) की कमी की चुनौती का सामना करने के लिए AI-जनित डेटा का उपयोग करके मॉडल को प्रशिक्षित करना शुरू कर रही हैं, इसलिए मॉडल को प्रशिक्षित करने के तरीके में भी बदलाव हो रहा है। फिर भी, पूरी तरह से सिंथेटिक डेटा पर निर्भरता के जोखिम के कारण कई संस्थान अभी भी प्रशिक्षण के लिए वास्तविक डेटा का उपयोग करना पसंद करते हैं।

इस शोध के पेपर में कहा गया है कि OpenAI का GPT-4o मॉडल संभवतः O'Reilly की पेड किताबों पर आधारित है, और O'Reilly ने OpenAI के साथ कोई लाइसेंस समझौता नहीं किया है। शोध से पता चलता है कि पहले के GPT-3.5Turbo मॉडल की तुलना में, GPT-4o O'Reilly की पेड किताबों की सामग्री को पहचानने की क्षमता में काफी वृद्धि हुई है।

शोधकर्ताओं ने DE-COP नामक एक विधि का उपयोग किया, जिसका उपयोग भाषा मॉडल प्रशिक्षण डेटा में कॉपीराइट सामग्री का पता लगाने के लिए किया जाता है। अध्ययन में, लेखकों ने GPT-4o, GPT-3.5Turbo और अन्य OpenAI मॉडल के ज्ञान का विश्लेषण किया, 34 O'Reilly पुस्तकों से 13962 पैराग्राफ अंशों का उपयोग करके इन अंशों की मॉडल प्रशिक्षण डेटा में संभावना का अनुमान लगाया।

शोध के परिणामों से पता चलता है कि GPT-4o ने अधिक पेड O'Reilly पुस्तक सामग्री को उच्च पहचान दिखाई है, जो कुछ हद तक यह दर्शाता है कि इस मॉडल ने प्रशिक्षण प्रक्रिया के दौरान इन गैर-सार्वजनिक पुस्तक सामग्रियों का सामना किया होगा।

हालांकि, शोधकर्ताओं ने यह भी बताया कि यह निर्णायक सबूत नहीं है, OpenAI ने उपयोगकर्ताओं द्वारा कॉपी-पेस्ट किए गए तरीके से इस सामग्री को प्राप्त किया होगा। इसके अलावा, शोध ने OpenAI के नवीनतम मॉडल का मूल्यांकन नहीं किया है, इसलिए इस संभावना से इंकार नहीं किया जा सकता है कि इन मॉडलों ने O'Reilly की पेड किताबों का उपयोग प्रशिक्षण के लिए नहीं किया है।

हालांकि OpenAI ने कुछ प्रशिक्षण डेटा के लिए भुगतान किया है, और समाचार प्रकाशकों, सोशल नेटवर्क आदि के साथ समझौते किए हैं, लेकिन वर्तमान कानूनी माहौल में, इसके द्वारा प्रशिक्षण डेटा के उपयोग के तरीके पर कई पक्षों द्वारा सवाल उठाए जा रहे हैं। यह शोध निस्संदेह OpenAI को प्रशिक्षण डेटा के उपयोग से संबंधित कई मुकदमों में और अधिक कठिन चुनौतियों का सामना करने के लिए मजबूर करता है।

मुख्य बातें:

📚 OpenAI पर AI मॉडल प्रशिक्षण के लिए O'Reilly की पेड किताबों का बिना अनुमति के उपयोग करने का आरोप लगाया गया है।  

🔍 शोध से पता चलता है कि GPT-4o में O'Reilly की किताबों की पहचान करने की क्षमता पहले के मॉडल की तुलना में काफी अधिक है।  

⚖️ OpenAI प्रशिक्षण डेटा के उपयोग के संबंध में कई कानूनी चुनौतियों का सामना कर रहा है।