Emu2: Das neue multimodalen Grundmodell des Beijing Academy of Artificial Intelligence (BAAI)

Emu2: Das neue multimodalen Grundmodell des Beijing Academy of Artificial Intelligence (BAAI)

Das Beijing Academy of Artificial Intelligence (BAAI) hat Emu2 veröffentlicht, ein neues, multimodalen Grundmodell der nächsten Generation. Durch groß angelegte, autoregressive, generative, multimodale Vorabtrainierung wurde ein erheblicher Durchbruch in der Fähigkeit zum multi-modalen kontextuellen Lernen erzielt.

Emu2 zeigt herausragende Leistungen bei multimodalen Verständnisaufgaben mit wenigen Beispielen und übertrifft dabei führende multimodale vortrainierte Großmodelle wie Flamingo-80B und IDEFICS-80B. Emu2 erreicht optimale Ergebnisse bei verschiedenen Aufgaben zum Verständnis mit wenigen Beispielen, bei visuellen Fragen und Antworten sowie bei der Bilderzeugung.

Emu2-Chat versteht Bild- und Textanweisungen präzise und ermöglicht eine verbesserte Informationswahrnehmung, Verständnis der Absichten und Entscheidungsfindung. Emu2-Gen kann Bild-, Text- und Positionssequenzen als Eingabe verarbeiten und ermöglicht die flexible, kontrollierbare und qualitativ hochwertige Erzeugung von Bildern und Videos.

Emu2 verwendet einen einfacheren Modellierungsrahmen und skaliert auf 37 Milliarden Parameter.

Weitere Informationen finden Sie im Projektlink des Beijing Academy of Artificial Intelligence (BAAI).