हाल ही में, AI बड़े मॉडल के प्रशिक्षण डेटा की कमी की समस्या फिर से मीडिया का ध्यान केंद्रित कर रही है। "द इकॉनमिस्ट" पत्रिका के नवीनतम लेख "AI कंपनियां जल्दी ही इंटरनेट डेटा का अधिकांश हिस्सा समाप्त कर देंगी" ने उद्योग में व्यापक चर्चा को जन्म दिया। लेख में कहा गया है कि उच्च गुणवत्ता वाले इंटरनेट डेटा के खत्म होने के साथ, AI क्षेत्र "डेटा दीवार" चुनौती का सामना कर रहा है।
अनुसंधान कंपनी Epoch AI का अनुमान है कि 2028 तक इंटरनेट पर सभी उच्च गुणवत्ता वाले पाठ डेटा समाप्त हो जाएंगे, और मशीन लर्निंग डेटा सेट 2026 से पहले ही सभी "उच्च गुणवत्ता वाले भाषा डेटा" का उपयोग कर सकते हैं। यह "डेटा दीवार" घटना AI कंपनियों के सामने एक महत्वपूर्ण समस्या बन गई है, जो उनके प्रशिक्षण की प्रगति को धीमा कर सकती है।
चित्र स्रोत नोट: चित्र AI द्वारा उत्पन्न, चित्र अधिकार सेवा प्रदाता Midjourney
उद्योग ने इस समस्या के प्रति पहले ही चेतावनी दी थी। 2023 में, कैलिफोर्निया विश्वविद्यालय, बर्कले के प्रोफेसर स्टुअर्ट रसेल ने चेतावनी दी थी कि ChatGPT जैसे AI संचालित रोबोट जल्द ही "ब्रह्मांड में पाठ समाप्त कर सकते हैं"। हालाँकि, विभिन्न दृष्टिकोण भी हैं। 2024 में, स्टैनफोर्ड विश्वविद्यालय के प्रोफेसर ली फेईफेई ने कहा कि अभी भी कई विविधता वाले डेटा हैं जिन्हें अन्वेषण करने की आवश्यकता है, ताकि अधिक कस्टमाइज्ड मॉडल बनाए जा सकें।
डेटा की कमी का सामना करने के लिए, संश्लेषित डेटा का उपयोग एक संभावित समाधान बन गया है। लेकिन "नेचर" पत्रिका में हाल ही में प्रकाशित एक पेपर ने कहा है कि AI द्वारा उत्पन्न डेटा सेट का उपयोग करके भविष्य की मशीन लर्निंग मॉडल का प्रशिक्षण "मॉडल क्रैश" का कारण बन सकता है, जिससे मॉडल वास्तविकता को गलत समझ सकता है। शोध टीम ने प्रशिक्षण डेटा में कुछ मूल डेटा को बनाए रखने, विविध डेटा स्रोतों का उपयोग करने और अधिक मजबूत प्रशिक्षण एल्गोरिदम का अध्ययन करने की सिफारिश की है।
"डेटा दीवार" सीमा को कैसे पार किया जाए, यह सुनिश्चित करने के लिए कि उच्च गुणवत्ता वाले प्रशिक्षण डेटा की निरंतर आपूर्ति हो, AI उद्योग का एक तात्कालिक मुद्दा बन गया है। इसके लिए केवल तकनीकी नवाचार की आवश्यकता नहीं है, बल्कि सरकार, कंपनियों और अनुसंधान संस्थानों के सामूहिक प्रयासों की भी आवश्यकता है। जैसे-जैसे AI तकनीक विभिन्न उद्योगों में शामिल होती जा रही है, डेटा की कमी की समस्या का समाधान AI के निरंतर स्वस्थ विकास पर गहरा प्रभाव डालेगा।