एक नई अध्ययन से पता चलता है कि एआई मॉडल धीरे-धीरे अपने नेटवर्क प्रशिक्षण डेटा तक पहुंच खो रहे हैं। यह अध्ययन डेटा प्रोवेनेंस इनिशिएटिव संगठन द्वारा किया गया है, जो दर्शाता है कि अप्रैल 2023 से अप्रैल 2024 तक, एआई प्रशिक्षण डेटा में पूरी तरह से छिपाए गए सामग्री का अनुपात लगभग 1% से बढ़कर 5-7% हो गया है। यह प्रवृत्ति भविष्य के एआई मॉडल को कम, पूर्वाग्रही और पुरानी जानकारी सीखने के लिए मजबूर कर सकती है।

कोड इंटरनेट कंप्यूटर

चित्र स्रोत टिप्पणी: चित्र एआई द्वारा उत्पन्न, चित्र लाइसेंस सेवा प्रदाता मिडजर्नी

यह अध्ययन 14,000 नेटवर्क डोमेन के robots.txt फ़ाइलों और उपयोग की शर्तों का विश्लेषण करता है, जो लोकप्रिय एआई प्रशिक्षण डेटा सेट (जैसे C4, RefinedWeb और Dolma) के स्रोत हैं।

अध्ययन में पाया गया कि समाचार वेबसाइटें, फोरम और सोशल मीडिया प्लेटफॉर्म एआई डेटा तक पहुंच को सीमित करने के प्रमुख स्रोत हैं, जिनमें समाचार वेबसाइटों का छिपाने का अनुपात 3% से बढ़कर 45% हो गया है। इसका मतलब है कि उच्च गुणवत्ता वाली समाचार सामग्री एआई प्रशिक्षण डेटा में कम हो सकती है, और इसकी जगह निम्न गुणवत्ता वाली कंपनियों और ई-कॉमर्स वेबसाइटों की सामग्री ले सकती है।

यह स्थिति एआई डेवलपर्स के लिए एक चुनौती है, क्योंकि उच्च गुणवत्ता वाले डेटा उत्कृष्ट मॉडल के प्रशिक्षण के लिए आवश्यक हैं। हालाँकि, उच्च गुणवत्ता वाले सामग्री प्रदाता एआई कंपनियों के साथ लाइसेंस समझौतों के माध्यम से नए आय स्रोत खोज सकते हैं।

मेटा के सीईओ मार्क ज़करबर्ग ने कहा है कि एक उत्कृष्ट एआई मॉडल को प्रशिक्षित करने के लिए पर्याप्त कॉपीराइट डेटा प्राप्त करना लगभग असंभव या बहुत महंगा है।

यदि उचित उपयोग का निर्णय नहीं होता है, तो यह स्थिति और बिगड़ सकती है। ओपनएआई ने हाल ही में कई प्रकाशकों के साथ अपने सामग्री को रीयल-टाइम डिस्प्ले और एआई प्रशिक्षण के लिए उपयोग करने के लिए कई मिलियन डॉलर के सौदे किए हैं। अन्य कंपनियों के भी इस प्रथा का पालन करने की उम्मीद है, जब तक कि कानूनी निर्णय में महत्वपूर्ण बदलाव नहीं होते।

मुख्य बिंदु:

  • 🛑 डेटा पहुंच प्रतिबंध बढ़ रहे हैं: 2023 से 2024 तक, एआई प्रशिक्षण डेटा में छिपाए गए सामग्री का अनुपात महत्वपूर्ण रूप से बढ़ गया है, समाचार वेबसाइटों का छिपाने का अनुपात 3% से बढ़कर 45% हो गया है।

  • 📉 उच्च गुणवत्ता वाले डेटा में कमी: एआई प्रशिक्षण डेटा में उच्च गुणवत्ता वाली समाचार सामग्री का अनुपात कम हो रहा है, जो संभवतः निम्न गुणवत्ता वाली कंपनियों और ई-कॉमर्स सामग्री से प्रतिस्थापित हो सकता है।

  • 💸 उच्च लागत और लाइसेंसिंग मुद्दे: एआई प्रशिक्षण के लिए पर्याप्त डेटा प्राप्त करना महंगा है, ओपनएआई और मेटा को चुनौतियों का सामना करना पड़ रहा है, उच्च गुणवत्ता वाले सामग्री प्रदाता लाइसेंस समझौतों के माध्यम से नए आय स्रोत खोज सकते हैं।