मैसाचुसेट्स इंस्टीट्यूट ऑफ टेक्नोलॉजी (MIT) के इलेक्ट्रिकल इंजीनियरिंग और कंप्यूटर साइंस के डॉक्टरेट छात्र मार्क हैमिल्टन MIT के कंप्यूटर साइंस और आर्टिफिशियल इंटेलिजेंस लेबोरेटरी (CSAIL) के सदस्य हैं, जो जानवरों की संचार विधियों को मशीन द्वारा समझने की कोशिश कर रहे हैं। इस उद्देश्य को प्राप्त करने के लिए, उन्होंने सबसे पहले एक ऐसा सिस्टम बनाने पर ध्यान केंद्रित किया जो "शून्य" से मानव भाषा सीख सके।

image.png

उत्पाद प्रवेश:https://top.aibase.com/tool/denseav

यह एल्गोरिदम डेंसएवी कहलाता है, जो ऑडियो और वीडियो सिग्नल को जोड़कर भाषा के अर्थ को सीखता है। हैमिल्टन और उनके सहयोगियों ने डेंसएवी को ऑडियो-वीडियो मिलान खेल में प्रशिक्षित करने के बाद, इस मॉडल के द्वारा सुनने पर ध्यान केंद्रित किए गए पिक्सेल का अवलोकन किया। उदाहरण के लिए, जब कोई "कुत्ता" कहता है, तो एल्गोरिदम तुरंत वीडियो स्ट्रीम में कुत्ते की खोज करता है। इस प्रकार के पिक्सेल का चयन लोगों को यह पता लगाने में मदद कर सकता है कि एल्गोरिदम किसी शब्द के अर्थ को कैसे समझता है।

image.png

दिलचस्प बात यह है कि जब डेंसएवी कुत्ते के भौंकने की आवाज सुनता है, तो यह वीडियो स्ट्रीम में कुत्ते की भी खोज करता है। इसने शोधकर्ताओं की रुचि को आकर्षित किया, जिन्होंने डेंसएवी को "दोहरी मस्तिष्क" देकर यह पता लगाने की कोशिश की कि क्या एल्गोरिदम "कुत्ता" शब्द और कुत्ते की भौंकने की आवाज के बीच का अंतर जानता है। उन्होंने पाया कि डेंसएवी का एक पक्ष स्वाभाविक रूप से भाषा पर ध्यान केंद्रित करता है, जैसे "कुत्ता" जैसे शब्द, जबकि दूसरा पक्ष ध्वनि पर ध्यान केंद्रित करता है, जैसे कुत्ते की भौंक। यह दर्शाता है कि डेंसएवी ने न केवल शब्दों के अर्थ और ध्वनि के स्थान को सीखा है, बल्कि इन क्रॉस-मोडल कनेक्शनों के प्रकारों के बीच भेद करना भी सीखा है, बिना किसी मानव हस्तक्षेप या किसी पाठ्य इनपुट के।

 डेंसएवी की मुख्य विशेषताएँ:

1. डेंसएवी एक डुअल एनकोडर ग्राउंडेड आर्किटेक्चर है, जो वीडियो देखने के माध्यम से उच्च रिज़ॉल्यूशन, अर्थपूर्ण और ऑडियो-विजुअल संरेखण के लक्षण सीखता है।

2. यह बिना स्पष्ट स्थानिक पर्यवेक्षण के शब्दों के "अर्थ" और ध्वनि के "स्थान" को खोजने में सक्षम है।

3. डेंसएवी बिना पर्यवेक्षण के स्वचालित रूप से शब्द अर्थ और ध्वनि स्थान के संबंधों को भेद कर सकता है।

4. यह ऑडियो-वीडियो तुलना सीखने का उपयोग करके ध्वनि को दृश्य दुनिया से जोड़ता है, जिससे बिना पर्यवेक्षण के सीखना संभव होता है।

5. यह मॉडल स्थानीय ऑडियो और दृश्य प्रतिनिधित्व टोकनों के बीच आंतरिक उत्पाद की तुलना समानता का उपयोग करता है, जिससे इसकी स्थान जानकारी की क्षमता में महत्वपूर्ण सुधार होता है।

6. डेंसएवी ध्वनि और भाषा के बीच क्या है, यह जाने बिना स्वाभाविक रूप से इसकी विशेषताओं को ध्वनि विशेषताओं और भाषा विशेषताओं के रूप में व्यवस्थित कर सकता है।

7. आधे से कम पैरामीटर का उपयोग करते हुए, डेंसएवी क्रॉस-मोडल खोज में पूर्व के अत्याधुनिक मॉडल इमेजबाइंड से बेहतर प्रदर्शन करता है।

इस विधि का एक अनुप्रयोग क्षेत्र हर दिन इंटरनेट पर प्रकाशित बड़ी मात्रा में वीडियो से सीखना है। शोधकर्ताओं ने कहा कि वे आशा करते हैं कि यह विधि लिखित संचार रूपों के बिना नई भाषाओं को समझने के लिए उपयोग की जा सके, जैसे कि डॉल्फ़िन या व्हेल की संचार विधियाँ। अंततः, वे आशा करते हैं कि यह विधि अन्य संकेतों के बीच पैटर्न संबंधों की खोज के लिए भी उपयोग की जा सके, जैसे कि पृथ्वी द्वारा उत्पन्न भूकंपीय ध्वनियाँ और भूवैज्ञानिक स्थितियाँ।

टीम के सामने एक कठिन चुनौती बिना किसी पाठ्य इनपुट के भाषा सीखना है। उनका लक्ष्य पूर्व-प्रशिक्षित भाषा मॉडल का उपयोग किए बिना, शून्य से भाषा के अर्थ को फिर से खोजने का है, यह विधि बच्चों द्वारा पर्यावरण को देख कर और सुनकर भाषा को समझने की प्रेरणा से प्रभावित है।

पेपर का पता: https://arxiv.org/abs/2406.05629