हाल ही में एक लाइव बातचीत में, टेस्ला और SpaceX के सीईओ एलोन मस्क ने कहा कि वास्तविक दुनिया में कृत्रिम बुद्धिमत्ता मॉडल को प्रशिक्षित करने के लिए उपलब्ध डेटा लगभग समाप्त हो चुका है। उनके साथ बातचीत में स्टैगवेल के बोर्ड के अध्यक्ष मार्क पेइन थे। मस्क ने उल्लेख किया, "हम अब मूल रूप से मानव ज्ञान के संचय को समाप्त कर चुके हैं... कृत्रिम बुद्धिमत्ता प्रशिक्षण के लिए डेटा। यह घटना मूल रूप से पिछले वर्ष हुई।"
मस्क का यह विचार पूर्व OpenAI के मुख्य वैज्ञानिक इल्या सुत्स्केवर द्वारा पिछले दिसंबर में NeurIPS सम्मेलन में प्रस्तुत "डेटा पीक" सिद्धांत के समान है। सुत्स्केवर ने कहा कि AI उद्योग डेटा की कमी की चुनौती का सामना कर रहा है, और भविष्य में पर्याप्त प्रशिक्षण डेटा की कमी AI मॉडल के विकास के तरीके को बदलने के लिए मजबूर करेगी।
इस समस्या का समाधान करने के लिए, मस्क का मानना है कि सिंथेटिक डेटा एक व्यवहार्य विकल्प बन जाएगा। उन्होंने कहा कि वास्तविक दुनिया के डेटा की पूर्ति करने का एकमात्र तरीका सिंथेटिक डेटा के माध्यम से है, यानी कृत्रिम बुद्धिमत्ता को स्वयं प्रशिक्षण डेटा उत्पन्न करने देना। मस्क ने कहा कि AI स्वयं का मूल्यांकन करके और लगातार अपने आप को अनुकूलित करके प्रदर्शन में सुधार कर सकता है।
वर्तमान में, कई तकनीकी कंपनियाँ जैसे माइक्रोसॉफ्ट, मेटा, OpenAI और एंथ्रोपिक आदि अपने प्रमुख AI मॉडल को प्रशिक्षित करने के लिए सिंथेटिक डेटा का उपयोग करना शुरू कर चुकी हैं। गार्टनर की भविष्यवाणी के अनुसार, 2024 तक कृत्रिम बुद्धिमत्ता और डेटा विश्लेषण परियोजनाओं के लिए 60% डेटा सिंथेटिक रूप से उत्पन्न होगा।
सिंथेटिक डेटा का एक प्रमुख लाभ यह है कि यह विकास लागत को काफी कम कर सकता है। हालाँकि, मस्क और अन्य विशेषज्ञों ने भी यह इंगित किया है कि सिंथेटिक डेटा बिना जोखिम के नहीं है। शोध से पता चलता है कि सिंथेटिक डेटा मॉडल के प्रदर्शन को कम कर सकता है, आउटपुट परिणामों में नवाचार की कमी हो सकती है, और पूर्वाग्रह से प्रभावित हो सकता है। यदि सिंथेटिक डेटा में स्वयं सीमाएँ हैं, तो अंतिम मॉडल के आउटपुट परिणाम भी इन समस्याओं से प्रभावित होंगे।
मुख्य बिंदु:
🌍 वास्तविक दुनिया में AI को प्रशिक्षित करने के लिए उपलब्ध डेटा लगभग समाप्त हो चुका है, इस पर मस्क ने चिंता व्यक्त की।
💡 सिंथेटिक डेटा को भविष्य के लिए एक महत्वपूर्ण समाधान माना जा रहा है, कई तकनीकी कंपनियाँ इसे अपनाने लगी हैं।
💰 सिंथेटिक डेटा का उपयोग विकास लागत को काफी कम कर सकता है, लेकिन इससे मॉडल के प्रदर्शन में कमी आने का जोखिम भी है।