智源研究院 के Emu3 टीम ने एक पूरी तरह से नई मल्टी-मोडल मॉडल Emu3 जारी की है, जो केवल अगले टोकन की भविष्यवाणी पर आधारित प्रशिक्षण के माध्यम से बनाई गई है। यह पारंपरिक फैलाव मॉडल और संयोजन मॉडल आर्किटेक्चर को बदल देती है, और उत्पादन और संवेदन कार्यों में अत्याधुनिक प्रदर्शन प्राप्त करती है।
हमेशा से, अगले टोकन की भविष्यवाणी को कृत्रिम बुद्धिमत्ता की सामान्य बुद्धिमत्ता (AGI) की ओर जाने वाली आशा के रूप में देखा गया है, लेकिन यह मल्टी-मोडल कार्यों पर अच्छी तरह से प्रदर्शन नहीं करती है। वर्तमान में, मल्टी-मोडल क्षेत्र अभी भी फैलाव मॉडल (जैसे Stable Diffusion) और संयोजन मॉडल (जैसे CLIP और LLM का संयोजन) द्वारा नियंत्रित है। Emu3 टीम ने चित्र, पाठ और वीडियो को विविक्त स्थान में टोकन किया और मिश्रित मल्टी-मोडल अनुक्रम पर एकल ट्रांसफार्मर मॉडल को प्रारंभ से प्रशिक्षित किया, जिससे मल्टी-मोडल कार्यों की एकता प्राप्त हुई, बिना फैलाव या संयोजन आर्किटेक्चर पर निर्भर किए।
Emu3 ने उत्पादन और संवेदन कार्यों में मौजूदा विशेष कार्य मॉडल को पार कर लिया है, यहां तक कि SDXL और LLaVA-1.6 जैसे प्रमुख मॉडलों को भी। Emu3 उच्च-फिडेलिटी वीडियो उत्पन्न करने के लिए वीडियो अनुक्रम में अगले टोकन की भविष्यवाणी कर सकता है। Sora के वीडियो फैलाव मॉडल का उपयोग करते हुए शोर से वीडियो उत्पन्न करने के विपरीत, Emu3 वीडियो अनुक्रम में अगले टोकन की भविष्यवाणी करके कारणात्मक तरीके से वीडियो उत्पन्न करता है। यह मॉडल वास्तविक दुनिया में पर्यावरण, व्यक्तियों और जानवरों के कुछ पहलुओं का अनुकरण कर सकता है और दिए गए वीडियो संदर्भ के आधार पर भविष्यवाणी कर सकता है कि आगे क्या होगा।
Emu3 ने जटिल मल्टी-मोडल मॉडल डिजाइन को सरल बनाया है, जिससे टोकन पर ध्यान केंद्रित किया जा सके, और प्रशिक्षण और अनुमान प्रक्रिया में विशाल विस्तार की संभावनाओं को मुक्त किया जा सके। शोध परिणाम दर्शाते हैं कि अगले टोकन की भविष्यवाणी भाषा से परे सामान्य मल्टी-मोडल बुद्धिमत्ता बनाने का एक प्रभावी तरीका है। इस क्षेत्र में आगे के शोध का समर्थन करने के लिए, Emu3 टीम ने प्रमुख तकनीकों और मॉडलों को ओपन-सोर्स किया है, जिसमें एक शक्तिशाली दृश्य टोकनाइज़र शामिल है, जो वीडियो और चित्रों को विविक्त टोकन में परिवर्तित कर सकता है, जो पहले सार्वजनिक रूप से उपलब्ध नहीं था।
Emu3 की सफलता मल्टी-मोडल मॉडल के भविष्य के विकास के लिए दिशा प्रदान करती है और AGI को प्राप्त करने के लिए नई आशा लाती है।
प्रोजेक्ट पता: https://github.com/baaivision/Emu3