हाल ही में, मेटा के एआई प्रमुख वैज्ञानिक यान लेकुन द्वारा संचालित एक अध्ययन ने यह खुलासा किया है कि कैसे आर्टिफिशियल इंटेलिजेंस वीडियो देखकर मूल भौतिकी की समझ विकसित कर सकता है। यह अध्ययन मेटा FAIR, पेरिस विश्वविद्यालय और EHESS के वैज्ञानिकों द्वारा संयुक्त रूप से किया गया, और दिखाता है कि एआई सिस्टम बिना पूर्व निर्धारित नियमों के, आत्म-निगरानी सीखने के माध्यम से सहज भौतिक ज्ञान प्राप्त कर सकता है।

QQ_1739931962266.png

अध्ययन टीम ने एक नई विधि का उपयोग किया जिसका नाम वीडियो संयुक्त एम्बेडिंग भविष्यवाणी ढांचा (V-JEPA) है। OpenAI के सोरा जैसे जनरेटिव एआई मॉडलों की तुलना में, V-JEPA का कार्यप्रणाली मानव मस्तिष्क की सूचना प्रोसेसिंग के तरीके के अधिक निकट है। V-JEPA पूर्ण पिक्सेल भविष्यवाणी उत्पन्न करने का प्रयास नहीं करता है, बल्कि एक अमूर्त प्रतिनिधित्व स्थान में भविष्यवाणी करने पर ध्यान केंद्रित करता है। इस तरीके से, एआई सिस्टम मूल भौतिक अवधारणाओं को सीख सकता है।

अध्ययन में, टीम ने विकासात्मक मनोविज्ञान से "अपेक्षा उल्लंघन" मूल्यांकन विधि का उपयोग किया, जो मूल रूप से शिशुओं की भौतिक समझ क्षमता का परीक्षण करने के लिए उपयोग की जाती थी। शोधकर्ताओं ने एआई को दो समान दृश्य दिखाए - एक भौतिक रूप से संभव था, जबकि दूसरा भौतिक रूप से असंभव था (जैसे, एक गेंद दीवार के माध्यम से गुजरती है)। इन भौतिक उल्लंघन घटनाओं के प्रति प्रतिक्रियाओं को मापकर, एआई की भौतिक समझ क्षमता का आकलन किया जा सकता है।

V-JEPA को तीन डेटा सेट्स पर परीक्षण किया गया: IntPhys (मूल भौतिक अवधारणाएँ), GRASP (जटिल इंटरैक्शन) और InfLevel (वास्तविक वातावरण)। परिणाम दिखाते हैं कि V-JEPA वस्तुओं की निरंतरता, निरंतरता और आकार की संगति के मामले में विशेष रूप से उत्कृष्ट प्रदर्शन करता है, जबकि बड़े बहु-मोडल भाषा मॉडल जैसे Gemini1.5Pro और Qwen2-VL-72B का प्रदर्शन लगभग यादृच्छिक अनुमान के बराबर था।

V-JEPA की सीखने की दक्षता भी ध्यान आकर्षित करती है, यह प्रणाली केवल 128 घंटे के वीडियो देखने के बाद मूल भौतिक अवधारणाओं को समझने में सक्षम है। इसके अलावा, 115 मिलियन पैरामीटर वाला छोटा मॉडल भी मजबूत परिणाम प्रदर्शित करता है। अध्ययन से पता चलता है कि V-JEPA गति पैटर्न को प्रभावी ढंग से पहचान सकता है और भौतिक रूप से असंगत घटनाओं की उच्च सटीकता के साथ पहचान कर सकता है, जो एआई के लिए दुनिया को वास्तव में समझने के भविष्य की नींव रखता है।

यह अध्ययन कई एआई शोधों में एक मूलभूत धारणा को चुनौती देता है, अर्थात् सिस्टम को भौतिक कानूनों को समझने के लिए पूर्व निर्धारित "मुख्य ज्ञान" की आवश्यकता होती है। V-JEPA के निष्कर्ष यह दर्शाते हैं कि अवलोकनात्मक शिक्षा एआई को इस ज्ञान को प्राप्त करने में मदद कर सकती है, जो शिशुओं, प्राइमेट्स और यहां तक कि युवा पक्षियों की भौतिकी को समझने की प्रक्रिया के समान है। अध्ययन मेटा के JEPA ढांचे के दीर्घकालिक अन्वेषण लक्ष्य के अनुरूप है, जिसका उद्देश्य एक व्यापक विश्व मॉडल बनाना है ताकि स्वायत्त एआई सिस्टम अपने वातावरण को और गहराई से समझ सकें।

मुख्य बिंदु:  

🧠 अध्ययन से पता चलता है कि एआई वीडियो के माध्यम से भौतिक ज्ञान सीखता है, बिना पूर्व निर्धारित नियमों के।  

📊 V-JEPA भौतिकी की समझ में बड़े भाषा मॉडलों से बेहतर है, और बेहतर सीखने की क्षमता प्रदर्शित करता है।  

🌍 मेटा नए एआई विकास दिशा को आगे बढ़ा रहा है, जिसका उद्देश्य अधिक व्यापक पर्यावरण समझ मॉडल बनाना है।