Das Beijing Zhiyuan Institut für Künstliche Intelligenz hat die Einführung seines nativen multimodalen Weltmodells Emu3 angekündigt. Dieses Modell basiert auf der Technologie der Vorhersage des nächsten Tokens und benötigt keine Diffusionsmodelle oder Kombinationsmethoden, um Text-, Bild- und Videodaten zu verstehen und zu generieren. Emu3 übertrifft in Aufgaben wie Bildgenerierung, Videogenerierung und visuell-sprachlichem Verständnis bestehende bekannte Open-Source-Modelle wie SDXL, LLaVA und OpenSora und zeigt eine herausragende Leistung.
Der Kern des Emu3-Modells ist ein leistungsstarker visueller Tokenizer, der Videos und Bilder in diskrete Tokens umwandeln kann. Diese Tokens können zusammen mit den diskreten Tokens, die vom Text-Tokenizer ausgegeben werden, in das Modell eingespeist werden. Die vom Modell ausgegebenen diskreten Tokens können in Text, Bilder und Videos umgewandelt werden, wodurch ein einheitliches Forschungsparadigma für Any-to-Any-Aufgaben bereitgestellt wird. Darüber hinaus ermöglicht die Flexibilität des Frameworks zur Vorhersage des nächsten Tokens von Emu3 die nahtlose Anwendung der direkten Präferenzoptimierung (DPO) auf die autoregressive visuelle Generierung, wodurch das Modell mit den Präferenzen des Menschen übereinstimmt.
Die Ergebnisse der Emu3-Forschung belegen, dass die Vorhersage des nächsten Tokens als leistungsstarkes Paradigma für multimodale Modelle dienen kann, um ein groß angelegtes multimodales Lernen über die Sprache hinaus zu ermöglichen und in multimodalen Aufgaben Spitzenergebnisse zu erzielen. Durch die Konvergenz komplexer multimodaler Designs auf die Tokens selbst entfaltet Emu3 ein enormes Potenzial im groß angelegten Training und der Inferenz. Dieses Ergebnis ebnet den Weg für den Aufbau einer multimodalen AGI.
Derzeit sind die Schlüsseltechnologien und das Modell von Emu3 Open Source, einschließlich des SFT-trainierten Chat-Modells und des Generierungsmodells sowie des entsprechenden SFT-Trainingscodes, um die weitere Forschung und den Aufbau und die Integration durch die Community zu ermöglichen.
Code:https://github.com/baaivision/Emu3
Projektseite:https://emu.baai.ac.cn/
Modell:https://huggingface.co/collections/BAAI/emu3-66f4e64f70850ff358a2e60f