Das Emu3-Team des Zhiyuan-Instituts hat ein völlig neues multimodales Modell namens Emu3 veröffentlicht. Dieses Modell wird ausschließlich auf der Grundlage der Vorhersage des nächsten Tokens trainiert und revolutioniert die herkömmlichen Diffusions- und kombinierten Modellarchitekturen. Es erzielt sowohl bei der Generierung als auch bei der Wahrnehmung von Aufgaben modernste Ergebnisse.

Die Vorhersage des nächsten Tokens galt lange als vielversprechender Weg zur universellen künstlichen Intelligenz (AGI), zeigte aber bei multimodale Aufgaben bisher Schwächen. Derzeit werden multimodale Bereiche noch von Diffusionsmodellen (wie Stable Diffusion) und kombinierten Modellen (wie der Kombination aus CLIP und LLM) dominiert. Das Emu3-Team tokenisiert Bilder, Texte und Videos in diskrete Räume und trainiert ein einzelnes Transformer-Modell von Grund auf neu auf gemischten multimodalen Sequenzen. Dadurch wird eine Multimodalitätsaufgabe vereinheitlicht, ohne auf Diffusions- oder kombinierte Architekturen angewiesen zu sein.

image.png

Emu3 übertrifft bei Generierungs- und Wahrnehmungsaufgaben bestehende modellspezifische Modelle und sogar Flaggschiffmodelle wie SDXL und LLaVA-1.6. Emu3 kann auch hochauflösende Videos generieren, indem es das nächste Token in einer Videosequenz vorhersagt. Im Gegensatz zu Sora, das Videos aus Rauschen mithilfe eines Videodiffusionsmodells generiert, erzeugt Emu3 Videos kausal durch die Vorhersage des nächsten Tokens in der Videosequenz. Das Modell kann Aspekte der realen Welt wie Umgebungen, Personen und Tiere simulieren und auf der Grundlage des gegebenen Videokontexts vorhersagen, was als Nächstes geschieht.

image.png

Emu3 vereinfacht das komplexe Design multimodaler Modelle und konzentriert sich auf Tokens, wodurch ein enormes Skalierungspotenzial im Trainings- und Inferenzprozess freigesetzt wird. Die Ergebnisse zeigen, dass die Vorhersage des nächsten Tokens ein effektiver Weg ist, um eine universelle multimodale Intelligenz zu schaffen, die über Sprache hinausgeht. Um weitere Forschung in diesem Bereich zu unterstützen, hat das Emu3-Team wichtige Technologien und Modelle, darunter einen leistungsstarken visuellen Tokenizer, der Videos und Bilder in diskrete Tokens umwandeln kann (bisher nicht öffentlich verfügbar), Open Source bereitgestellt.

Der Erfolg von Emu3 weist den Weg für die zukünftige Entwicklung multimodaler Modelle und bietet neue Hoffnung auf die Realisierung von AGI.

Projektseite: https://github.com/baaivision/Emu3