智源研究院 के Emu3 टीम ने एक पूरी तरह से नई मल्टी-मोडल मॉडल Emu3 जारी की है, जो केवल अगले टोकन की भविष्यवाणी पर आधारित प्रशिक्षण के माध्यम से बनाई गई है। यह पारंपरिक फैलाव मॉडल और संयोजन मॉडल आर्किटेक्चर को बदल देती है, और उत्पादन और संवेदन कार्यों में अत्याधुनिक प्रदर्शन प्राप्त करती है।

हमेशा से, अगले टोकन की भविष्यवाणी को कृत्रिम बुद्धिमत्ता की सामान्य बुद्धिमत्ता (AGI) की ओर जाने वाली आशा के रूप में देखा गया है, लेकिन यह मल्टी-मोडल कार्यों पर अच्छी तरह से प्रदर्शन नहीं करती है। वर्तमान में, मल्टी-मोडल क्षेत्र अभी भी फैलाव मॉडल (जैसे Stable Diffusion) और संयोजन मॉडल (जैसे CLIP और LLM का संयोजन) द्वारा नियंत्रित है। Emu3 टीम ने चित्र, पाठ और वीडियो को विविक्त स्थान में टोकन किया और मिश्रित मल्टी-मोडल अनुक्रम पर एकल ट्रांसफार्मर मॉडल को प्रारंभ से प्रशिक्षित किया, जिससे मल्टी-मोडल कार्यों की एकता प्राप्त हुई, बिना फैलाव या संयोजन आर्किटेक्चर पर निर्भर किए।

image.png

Emu3 ने उत्पादन और संवेदन कार्यों में मौजूदा विशेष कार्य मॉडल को पार कर लिया है, यहां तक कि SDXL और LLaVA-1.6 जैसे प्रमुख मॉडलों को भी। Emu3 उच्च-फिडेलिटी वीडियो उत्पन्न करने के लिए वीडियो अनुक्रम में अगले टोकन की भविष्यवाणी कर सकता है। Sora के वीडियो फैलाव मॉडल का उपयोग करते हुए शोर से वीडियो उत्पन्न करने के विपरीत, Emu3 वीडियो अनुक्रम में अगले टोकन की भविष्यवाणी करके कारणात्मक तरीके से वीडियो उत्पन्न करता है। यह मॉडल वास्तविक दुनिया में पर्यावरण, व्यक्तियों और जानवरों के कुछ पहलुओं का अनुकरण कर सकता है और दिए गए वीडियो संदर्भ के आधार पर भविष्यवाणी कर सकता है कि आगे क्या होगा।

image.png

Emu3 ने जटिल मल्टी-मोडल मॉडल डिजाइन को सरल बनाया है, जिससे टोकन पर ध्यान केंद्रित किया जा सके, और प्रशिक्षण और अनुमान प्रक्रिया में विशाल विस्तार की संभावनाओं को मुक्त किया जा सके। शोध परिणाम दर्शाते हैं कि अगले टोकन की भविष्यवाणी भाषा से परे सामान्य मल्टी-मोडल बुद्धिमत्ता बनाने का एक प्रभावी तरीका है। इस क्षेत्र में आगे के शोध का समर्थन करने के लिए, Emu3 टीम ने प्रमुख तकनीकों और मॉडलों को ओपन-सोर्स किया है, जिसमें एक शक्तिशाली दृश्य टोकनाइज़र शामिल है, जो वीडियो और चित्रों को विविक्त टोकन में परिवर्तित कर सकता है, जो पहले सार्वजनिक रूप से उपलब्ध नहीं था।

Emu3 की सफलता मल्टी-मोडल मॉडल के भविष्य के विकास के लिए दिशा प्रदान करती है और AGI को प्राप्त करने के लिए नई आशा लाती है।

प्रोजेक्ट पता: https://github.com/baaivision/Emu3