जिज्ञासा अनुसंधान संस्थान ने अपनी नई पीढ़ी के मल्टी-मोडल विश्व मॉडल Emu3 का आधिकारिक रूप से अनावरण किया है, जिसका मुख्य आकर्षण यह है कि यह केवल अगले टोकन की भविष्यवाणी क्षमता पर निर्भर करते हुए, पाठ, चित्र और वीडियो जैसे तीन विभिन्न मोड में समझ और उत्पादन कर सकता है।
चित्र उत्पादन के क्षेत्र में, Emu3 दृश्य टोकन की भविष्यवाणी के आधार पर उच्च गुणवत्ता वाली छवियों का उत्पादन कर सकता है। इसका मतलब है कि उपयोगकर्ता लचीले रिज़ॉल्यूशन और विविध शैलियों की उम्मीद कर सकते हैं।
वीडियो उत्पादन के मामले में, Emu3 एक नए तरीके से काम करता है, अन्य मॉडलों के विपरीत जो शोर के माध्यम से वीडियो उत्पन्न करते हैं, Emu3 क्रमिक भविष्यवाणी के माध्यम से सीधे वीडियो उत्पन्न करता है। इस तकनीकी प्रगति ने वीडियो उत्पादन को और अधिक सहज और प्राकृतिक बना दिया है।
चित्र उत्पादन, वीडियो उत्पादन और दृश्य भाषा समझ जैसे कार्यों में, Emu3 का प्रदर्शन कई प्रसिद्ध ओपन-सोर्स मॉडलों, जैसे SDXL, LLaVA और OpenSora से बेहतर है। इसके पीछे एक शक्तिशाली दृश्य टोकनाइज़र है, जो वीडियो और चित्रों को पृथक टोकनों में परिवर्तित कर सकता है, यह डिज़ाइन पाठ, चित्र और वीडियो के एकीकृत प्रसंस्करण के लिए नए विचारों की पेशकश करता है।
उदाहरण के लिए, चित्र समझने के मामले में, उपयोगकर्ता को केवल एक प्रश्न दर्ज करने की आवश्यकता होती है, Emu3 सटीक रूप से चित्र की सामग्री का वर्णन कर सकता है।
Emu3 में वीडियो भविष्यवाणी की क्षमता भी है। जब एक वीडियो दिया जाता है, Emu3 मौजूदा सामग्री के आधार पर यह अनुमान लगा सकता है कि आगे क्या होगा। यह इसे अनुकरणीय वातावरण, मानव और पशु व्यवहार में बहुत मजबूत क्षमता दिखाता है, जिससे उपयोगकर्ताओं को एक अधिक वास्तविक इंटरैक्टिव अनुभव मिलता है।
इसके अलावा, Emu3 का डिज़ाइन लचीलापन भी ताज़गी भरा है। यह सीधे मानव प्राथमिकताओं के साथ अनुकूलित किया जा सकता है, जिससे उत्पन्न सामग्री उपयोगकर्ताओं की अपेक्षाओं के अधिक अनुरूप होती है। और, Emu3 एक ओपन-सोर्स मॉडल के रूप में, तकनीकी समुदाय में गर्म चर्चा का विषय बन गया है, कई लोगों का मानना है कि यह उपलब्धि मल्टी-मोडल एआई के विकास के परिदृश्य को पूरी तरह से बदल देगी।
प्रोजेक्ट वेबसाइट: https://emu.baai.ac.cn/about
शोध पत्र: https://arxiv.org/pdf/2409.18869
मुख्य बिंदु:
🌟 Emu3 अगले टोकन की भविष्यवाणी के माध्यम से, पाठ, चित्र और वीडियो की मल्टी-मोडल समझ और उत्पादन को संभव बनाता है।
🚀 कई कार्यों में, Emu3 का प्रदर्शन कई प्रसिद्ध ओपन-सोर्स मॉडलों को पार कर गया है, जो इसकी शक्तिशाली क्षमता को दर्शाता है।
💡 Emu3 का लचीला डिज़ाइन और ओपन-सोर्स विशेषताएँ डेवलपर्स को नए अवसर प्रदान करती हैं, जो मल्टी-मोडल एआई के नवाचार और विकास को बढ़ावा देने की उम्मीद करती हैं।