L'Institut de recherche sur l'intelligence artificielle de Beijing (BAAI) a annoncé le lancement d'Emu3, un modèle mondial multi-modal natif. Ce modèle, basé sur la prédiction du jeton suivant, permet de comprendre et de générer des données de trois modalités : texte, image et vidéo, sans recourir à des modèles de diffusion ou à des méthodes combinées.

微信截图_20241021135044.png

Emu3 surpasse les modèles open source connus tels que SDXL, LLaVA et OpenSora dans des tâches telles que la génération d'images, la génération de vidéos et la compréhension visuelle du langage, démontrant ainsi des performances exceptionnelles.

Au cœur d'Emu3 se trouve un puissant tokeniseur visuel qui convertit les vidéos et les images en jetons discrets. Ces jetons peuvent être introduits dans le modèle avec les jetons discrets issus du tokeniseur textuel. Les jetons discrets produits par le modèle peuvent ensuite être convertis en texte, images et vidéos, offrant un paradigme de recherche unifié pour les tâches Any-to-Any. De plus, la flexibilité du cadre de prédiction du jeton suivant d'Emu3 permet une application transparente de l'optimisation directe des préférences (DPO) à la génération visuelle autorégressive, assurant ainsi l'alignement du modèle avec les préférences humaines.

微信截图_20241021135121.png

Les résultats de la recherche sur Emu3 démontrent que la prédiction du jeton suivant peut servir de puissant paradigme pour les modèles multi-modaux, permettant un apprentissage multi-modal à grande échelle dépassant le langage lui-même et atteignant des performances de pointe dans les tâches multi-modales. En réduisant la complexité de la conception multi-modale aux jetons eux-mêmes, Emu3 libère un potentiel énorme pour l'entraînement et l'inférence à grande échelle. Cette avancée ouvre une voie prometteuse vers la construction d'une IAG multi-modale.

Actuellement, les technologies clés et le modèle Emu3 sont open source, incluant les modèles Chat et de génération ayant subi un apprentissage par renforcement à partir de la rétroaction humaine (SFT), ainsi que le code d'entraînement SFT correspondant, pour faciliter les recherches futures et la construction et l'intégration par la communauté.

Code : https://github.com/baaivision/Emu3

Page du projet : https://emu.baai.ac.cn/

Modèle : https://huggingface.co/collections/BAAI/emu3-66f4e64f70850ff358a2e60f