क्या आजकल के आर्टिफिशियल इंटेलिजेंस मॉडल वास्तव में इंसानों की तरह याद रख सकते हैं, सोच सकते हैं, योजना बना सकते हैं और तर्क कर सकते हैं? कुछ AI प्रयोगशालाएँ ऐसा प्रतीत करती हैं कि हम "मानव स्तर के AI" के करीब पहुँच रहे हैं, लेकिन मेटा के मुख्य AI वैज्ञानिक यान लेकुन ने सभी को ठंडा पानी डाल दिया। उनका मानना है कि इस लक्ष्य को हासिल करने के लिए हमें शायद दस साल की मेहनत करनी पड़ेगी, और इसका मुख्य तत्व "विश्व मॉडल" है।

इस साल की शुरुआत में, OpenAI ने एक नई सुविधा पेश की, जिसमें दावा किया गया कि उसका ChatGPT उपयोगकर्ताओं के साथ बातचीत को "याद" रख सकता है। इसके नवीनतम मॉडल आउटपुट उत्पन्न करते समय "सोचने" का शब्द प्रदर्शित करते हैं, और यहां तक कि दावा करते हैं कि ये मॉडल "जटिल तर्क" कर सकते हैं।

रोबोट आर्टिफिशियल इंटेलिजेंस AI (3)

चित्र स्रोत नोट: चित्र AI द्वारा उत्पन्न, चित्र अधिकार सेवा प्रदाता Midjourney

ऐसा लगता है कि हम AGI (सामान्य आर्टिफिशियल इंटेलिजेंस) के युग में प्रवेश करने वाले हैं। हालांकि, हाल के हडसन फोरम में, लेकुन ने उन आशावादी आवाज़ों को खारिज कर दिया, जैसे कि xAI के संस्थापक एलोन मस्क और गूगल DeepMind के सह-संस्थापक शेन लेग, जो मानते हैं कि मानव स्तर का AI बस सामने है।

लेकुन ने指出: "हमें उन मशीनों की आवश्यकता है जो दुनिया को समझ सकें; जिनमें याददाश्त, अंतर्ज्ञान, सामान्य ज्ञान हो, और जो इंसानों की तरह तर्क और योजना बना सकें।" उन्होंने जोर देकर कहा कि हालांकि AI विकास के प्रति उत्साही आवाजें लगातार आ रही हैं, वर्तमान AI सिस्टम वास्तव में इस स्तर तक पहुँचने से बहुत दूर हैं। उन्होंने यह भी कहा कि असली मानव स्तर का AI "कई वर्षों से लेकर कई दशकों" तक लग सकता है।

तो समस्या कहाँ है? दरअसल, यह बहुत सरल है: आजकल के बड़े भाषा मॉडल (LLM) केवल अगले शब्द की भविष्यवाणी करके काम करते हैं (अक्सर कुछ अक्षर या एक छोटा शब्द) और वर्तमान छवि या वीडियो मॉडल अगली पिक्सेल की भविष्यवाणी करते हैं। इसका मतलब है कि भाषा मॉडल केवल एक आयाम में भविष्यवाणी कर सकते हैं, जबकि छवि/वीडियो मॉडल दो आयाम में। हालांकि ये मॉडल अपने-अपने क्षेत्रों में काफी अच्छे प्रदर्शन करते हैं, लेकिन वे तीन आयामी दुनिया की जटिलता को नहीं समझते।

इसी कारण, आधुनिक AI सिस्टम अधिकांश सरल कार्यों को पूरा करने में असमर्थ हैं जो अधिकांश मानव आसानी से कर सकते हैं। लेकुन ने उल्लेख किया कि इंसान दस साल की उम्र में टेबल को साफ करना सीख सकते हैं, और सत्रह साल की उम्र में गाड़ी चलाना सीख सकते हैं, यहां तक कि केवल कुछ घंटों में। लेकिन वर्तमान के सबसे उन्नत AI सिस्टम, हजारों या लाखों घंटों के डेटा प्रशिक्षण के बावजूद, अभी भी वास्तविक दुनिया में विश्वसनीयता से काम नहीं कर पा रहे हैं।

जटिल कार्यों को पूरा करने के लिए, लेकुन मानते हैं कि हमें अपने चारों ओर की दुनिया को समझने वाले तीन आयामी मॉडल बनाने की आवश्यकता है, जिसका मूल एक नई AI संरचना - विश्व मॉडल में है। उन्होंने स्पष्ट किया: "विश्व मॉडल आपके द्वारा दुनिया के व्यवहार का मानसिक मॉडल है।" आप उन क्रियाओं की एक श्रृंखला की कल्पना कर सकते हैं जो आप ले सकते हैं, और आपका विश्व मॉडल आपको यह अनुमान लगाने की अनुमति देगा कि ये क्रियाएँ दुनिया पर क्या प्रभाव डालेंगी।

उदाहरण के लिए, कल्पना कीजिए कि आपने एक गंदे बेडरूम को देखा और आप इसे साफ करना चाहते हैं। आप स्वाभाविक रूप से सोच सकते हैं कि सभी कपड़ों को उठाकर उन्हें ठीक से रखना समस्या को हल कर देगा। आपको कई तरीकों को आजमाने की आवश्यकता नहीं है, और न ही आपको पहले यह सीखने की आवश्यकता है कि कमरे को कैसे साफ करना है। आपका मस्तिष्क तीन आयामी स्थान का अवलोकन करता है, और सीधे पहले समय में लक्ष्य को प्राप्त करने के लिए एक कार्य योजना बनाता है। यह कार्य योजना AI विश्व मॉडल द्वारा वादा किए गए "गुप्त हथियार" के रूप में है।

विश्व मॉडल का एक और लाभ यह है कि वे LLM की तुलना में बड़े डेटा को संभाल सकते हैं। इससे उनकी गणना की आवश्यकताएँ अधिक जटिल हो जाती हैं, यही कारण है कि प्रमुख क्लाउड सेवा प्रदाता AI कंपनियों के साथ सहयोग करने के लिए प्रयासरत हैं।

आजकल, कई AI प्रयोगशालाएँ विश्व मॉडल के इस बड़े विचार का पीछा कर रही हैं, यह शब्द तेजी से जोखिम पूंजी को आकर्षित करने वाला एक लोकप्रिय विषय बन गया है। एक प्रतिष्ठित AI शोधकर्ताओं की एक टीम, जिसमें "AI देवी" फेई-फेई ली और जस्टिन जॉनसन शामिल हैं, ने हाल ही में अपनी स्टार्टअप कंपनी वर्ल्ड लैब्स के लिए 2.3 अरब डॉलर जुटाए हैं। वह और उनकी टीम मानते हैं कि विश्व मॉडल अधिक बुद्धिमान AI सिस्टम को अनलॉक करेगा। OpenAI ने भी अपने अभी तक जारी नहीं किए गए सोरा वीडियो जनरेटर का वर्णन एक विश्व मॉडल के रूप में किया है, लेकिन इसके विशिष्ट विवरण अभी तक प्रकट नहीं किए गए हैं।

लेकुन ने 2022 में "लक्ष्य-प्रेरित AI" पर एक पेपर में मानव स्तर के AI बनाने के लिए विश्व मॉडल के उपयोग के विचार को स्पष्ट किया, हालांकि उन्होंने यह भी बताया कि यह अवधारणा 60 से अधिक वर्षों पुरानी है। संक्षेप में, विश्व मॉडल एक दुनिया के मूल प्रतिनिधित्व (जैसे, एक गंदे कमरे का वीडियो) और याददाश्त के माध्यम से प्रशिक्षित होते हैं। फिर, यह मॉडल इन सूचनाओं के आधार पर दुनिया में बदलाव की भविष्यवाणी करता है। इसके बाद, आप विश्व मॉडल को लक्ष्य निर्धारित करते हैं, जिसमें आप जिस दुनिया में परिवर्तन की स्थिति प्राप्त करना चाहते हैं (जैसे, कमरे को साफ करना) और कुछ "सुरक्षा उपाय" सेट करते हैं, यह सुनिश्चित करने के लिए कि मॉडल अपने लक्ष्य को प्राप्त करने के लिए मानवता को नुकसान नहीं पहुँचाए (जैसे, कमरे को साफ करते समय मुझे चोट न पहुँचाएं)। अंततः, विश्व मॉडल उन लक्ष्यों को प्राप्त करने के लिए क्रियाओं की एक श्रृंखला खोजेगा।

मेटा की दीर्घकालिक AI अनुसंधान प्रयोगशाला FAIR (बेसिक AI रिसर्च) सक्रिय रूप से लक्ष्य-प्रेरित AI और विश्व मॉडल पर शोध कर रही है, लेकुन ने कहा। FAIR ने मेटा के आगामी उत्पादों के लिए AI अनुसंधान किया है, लेकिन लेकुन ने कहा कि यह प्रयोगशाला हाल के वर्षों में दीर्घकालिक AI अनुसंधान पर ध्यान केंद्रित करने के लिए बदल गई है, और अब यहां तक कि LLM का उपयोग भी नहीं कर रही है।

हालांकि विश्व मॉडल एक आकर्षक अवधारणा है, लेकुन ने स्वीकार किया कि हम इन सिस्टमों को वास्तविकता में बदलने में अभी तक बहुत प्रगति नहीं कर पाए हैं। हमें लक्ष्य तक पहुँचने के लिए कई कठिन समस्याओं का सामना करना है, उन्होंने कहा, "अगर हम दस साल की बात न करें, तो यहाँ सब कुछ काम करने में कई वर्षों लग सकते हैं।" और उनके बॉस मार्क ज़करबर्ग हमेशा यह पूछने से नहीं चूकते कि हम कब तक इस लक्ष्य को प्राप्त कर सकेंगे।