कुछ समय पहले, AIGC क्षेत्र पर केंद्रित शोध संस्थान Epochai ने एक महत्वपूर्ण शोध रिपोर्ट जारी की। रिपोर्ट में कहा गया है कि हमारे मानवता द्वारा सार्वजनिक किए गए उच्च गुणवत्ता वाले पाठ प्रशिक्षण डेटा सेट में लगभग 300 खरब टोकन हैं। लेकिन जैसे-जैसे ChatGPT जैसे बड़े मॉडलों की भूख बढ़ती जा रही है, ये डेटा 2026 से 2032 के बीच पूरी तरह से समाप्त हो सकते हैं!

22.jpg

शोधकर्ताओं ने विशेष रूप से बताया कि "अत्यधिक प्रशिक्षण" प्रशिक्षण डेटा के तेजी से खपत होने का मुख्य कारण है। उदाहरण के लिए, Meta के नवीनतम ओपन-सोर्स Llama3 का 8B संस्करण का अत्यधिक प्रशिक्षण अविश्वसनीय 100 गुना तक पहुंच गया है! अगर सभी मॉडल इसी तरह से काम करते हैं, तो हमारे डेटा को 2025 में अलविदा कहना पड़ सकता है।

2.jpg

लेकिन चिंता मत करो, हमारे पास उपाय हैं। Epoch ai ने AI क्षेत्र के "डेटा संकट" को समाप्त करने के लिए चार नए तरीकों का सुझाव दिया है।

1) संश्लेषित डेटा: जैसे कि एक खाना बनाने के पैकेट से बनाया गया बड़ा भोजन, संश्लेषित डेटा गहन अध्ययन का उपयोग करके वास्तविक डेटा का अनुकरण करता है, जिससे नए डेटा का निर्माण होता है। लेकिन जल्दी खुश मत होइए, संश्लेषित डेटा की गुणवत्ता असमान हो सकती है, ओवरफिटिंग का खतरा होता है, और इसमें वास्तविक पाठ की सूक्ष्म भाषा विशेषताओं की कमी होती है।

2) मल्टी-मोडल और क्रॉस-डोमेन डेटा अध्ययन: यह विधि केवल पाठ तक सीमित नहीं है, बल्कि इसमें छवियाँ, वीडियो, ऑडियो और अन्य डेटा प्रकार भी शामिल हैं। जैसे KTV में, आप केवल गा नहीं सकते, बल्कि नृत्य भी कर सकते हैं, और प्रदर्शन भी कर सकते हैं, मल्टी-मोडल अध्ययन मॉडल को जटिल कार्यों को अधिक व्यापक रूप से समझने और संभालने में मदद करता है।

3) निजी डेटा: वर्तमान में, वैश्विक पाठ डेटा का निजी कुल मात्रा लगभग 3100 खरब टोकन है, जो सार्वजनिक डेटा का 10 गुना से अधिक है! लेकिन निजी डेटा का उपयोग करते समय सावधानी बरतनी चाहिए, आखिरकार, गोपनीयता और सुरक्षा महत्वपूर्ण मुद्दे हैं। और गैर-जनता डेटा को प्राप्त करने और एकीकृत करने की प्रक्रिया बहुत जटिल हो सकती है।

4) वास्तविक दुनिया के साथ वास्तविक समय में इंटरैक्शन अध्ययन: मॉडल को वास्तविक दुनिया के साथ सीधे बातचीत के माध्यम से सीखने और सुधारने की अनुमति देना। इस विधि के लिए मॉडल में स्वायत्तता और अनुकूलनशीलता होनी चाहिए, जिससे वह उपयोगकर्ता के निर्देशों को सही ढंग से समझ सके और वास्तविक दुनिया में कार्रवाई कर सके।