Das Zhiyuan-Institut hat sein neues multimodales Weltmodell Emu3 veröffentlicht. Das herausragende Merkmal: Es versteht und generiert Inhalte in Text-, Bild- und Videoformat, basierend allein auf der Vorhersage des nächsten Tokens.

image.png

Bei der Bildgenerierung erstellt Emu3 hochwertige Bilder auf Basis der Vorhersage von visuellen Tokens. Das bedeutet flexible Auflösungen und diverse Stile für den Benutzer.

image.png

Die Videogenerierung funktioniert bei Emu3 anders als bei anderen Modellen: Anstatt Videos aus Rauschen zu erzeugen, generiert Emu3 Videos durch sequenzielle Vorhersage. Dies führt zu flüssigeren und natürlicheren Ergebnissen.

image.png

Emu3 übertrifft bekannte Open-Source-Modelle wie SDXL, LLaVA und OpenSora in Aufgaben wie Bild- und Videogenerierung sowie visuell-sprachlichem Verständnis. Die Grundlage bildet ein leistungsstarker visueller Tokenizer, der Videos und Bilder in diskrete Tokens umwandelt. Dieses Design ermöglicht eine einheitliche Verarbeitung von Text, Bildern und Videos.

Beispielsweise kann Emu3 auf einfache Fragen hin den Inhalt eines Bildes präzise beschreiben.

image.png

Emu3 kann auch Videos vorhersagen. Ausgehend von vorhandenem Videomaterial kann es das weitere Geschehen prognostizieren. Dies zeigt seine Stärke in der Simulation von Umgebungen und dem Verhalten von Menschen und Tieren und ermöglicht realistischere Interaktionen.

image.png

Die Flexibilität von Emu3 ist ebenfalls bemerkenswert. Es lässt sich direkt an menschliche Präferenzen anpassen, wodurch die generierten Inhalte den Erwartungen der Benutzer besser entsprechen. Als Open-Source-Modell sorgt Emu3 für rege Diskussionen in der Tech-Community, wobei viele glauben, dass dieses Ergebnis das Entwicklungsumfeld von multimodaler KI grundlegend verändern wird.

Projekt-Website:https://emu.baai.ac.cn/about

Forschungsarbeit:https://arxiv.org/pdf/2409.18869

Wichtigste Punkte:

🌟 Emu3 versteht und generiert multimodale Inhalte (Text, Bild, Video) durch Vorhersage des nächsten Tokens.

🚀 Emu3 übertrifft mehrere bekannte Open-Source-Modelle in verschiedenen Aufgaben und zeigt beeindruckende Leistungsfähigkeit.

💡 Das flexible Design und der Open-Source-Charakter von Emu3 bieten Entwicklern neue Möglichkeiten und könnten Innovationen im Bereich der multimodalen KI vorantreiben.