बीजिंग झीयुआन आर्टिफिशियल इंटेलिजेंस रिसर्च इंस्टीट्यूट ने मूल बहु-मोडल विश्व मॉडल Emu3 की घोषणा की है। यह मॉडल अगले टोकन भविष्यवाणी तकनीक पर आधारित है, जो फैलाव मॉडल या संयोजन विधियों पर निर्भर किए बिना, पाठ, चित्र, और वीडियो तीनों प्रकार के डेटा की समझ और उत्पादन को पूरा कर सकता है। Emu3 ने चित्र उत्पादन, वीडियो उत्पादन, दृश्य भाषा समझने जैसे कार्यों में वर्तमान प्रसिद्ध ओपन-सोर्स मॉडलों जैसे SDXL, LLaVA, OpenSora आदि को पार किया है, जो उत्कृष्ट प्रदर्शन दिखाता है।
Emu3 मॉडल का मुख्य आधार एक शक्तिशाली दृश्य टोकनाइज़र है, जो वीडियो और चित्रों को डिस्क्रीट टोकन में परिवर्तित कर सकता है, जिन्हें पाठ टोकनाइज़र द्वारा उत्पन्न डिस्क्रीट टोकन के साथ मॉडल में भेजा जा सकता है। मॉडल द्वारा उत्पन्न डिस्क्रीट टोकन को पाठ, चित्र और वीडियो में परिवर्तित किया जा सकता है, जो Any-to-Any कार्यों के लिए एक एकीकृत शोध प्रारूप प्रदान करता है। इसके अलावा, Emu3 का अगला टोकन भविष्यवाणी ढांचे की लचीलापन सीधे प्राथमिकता अनुकूलन (DPO) को स्वचालित दृश्य उत्पादन में निर्बाध रूप से लागू करने की अनुमति देता है, जिससे मॉडल मानव प्राथमिकताओं के साथ सामंजस्य में रहता है।
Emu3 के शोध परिणामों ने साबित किया है कि अगला टोकन भविष्यवाणी बहु-मोडल मॉडल के लिए एक शक्तिशाली प्रारूप के रूप में कार्य कर सकता है, जो भाषा से परे बड़े पैमाने पर बहु-मोडल सीखने को सक्षम करता है और बहु-मोडल कार्यों में उन्नत प्रदर्शन प्राप्त करता है। जटिल बहु-मोडल डिज़ाइन को टोकन में समेकित करके, Emu3 ने बड़े पैमाने पर प्रशिक्षण और अनुमान में विशाल संभावनाओं को मुक्त किया है। यह उपलब्धि बहु-मोडल AGI के निर्माण के लिए एक व्यापक संभावना का रास्ता प्रदान करती है।
वर्तमान में, Emu3 की प्रमुख तकनीक और मॉडल ओपन-सोर्स कर दिए गए हैं, जिसमें SFT के माध्यम से प्रशिक्षित चैट मॉडल और जनरेटिव मॉडल शामिल हैं, साथ ही संबंधित SFT प्रशिक्षण कोड भी है, ताकि आगे के शोध और सामुदायिक निर्माण और एकीकरण की सुविधा हो सके।
कोड:https://github.com/baaivision/Emu3
प्रोजेक्ट पृष्ठ:https://emu.baai.ac.cn/
मॉडल:https://huggingface.co/collections/BAAI/emu3-66f4e64f70850ff358a2e60f