L'équipe Emu3 de l'Institut de recherche sur l'intelligence artificielle Zhiyuan a publié un nouveau modèle multi-modal, Emu3. Ce modèle, entraîné uniquement sur la prédiction du jeton suivant, révolutionne les architectures traditionnelles des modèles de diffusion et des modèles composites, atteignant des performances de pointe pour les tâches de génération et de perception.

La prédiction du jeton suivant a longtemps été considérée comme la voie prometteuse vers une intelligence artificielle générale (AGI), mais elle a montré des performances médiocres sur les tâches multimodales. Actuellement, le domaine multimodal est dominé par les modèles de diffusion (comme Stable Diffusion) et les modèles composites (comme la combinaison de CLIP et de LLM). L'équipe Emu3 a tokenisé les images, les textes et les vidéos dans un espace discret et a entraîné un seul modèle Transformer à partir de zéro sur une séquence multimodale mixte, réalisant ainsi une unification des tâches multimodales sans dépendre des architectures de diffusion ou composites.

image.png

Emu3 surpasse les modèles spécifiques à une tâche existants, et même des modèles phares comme SDXL et LLaVA-1.6, tant pour les tâches de génération que de perception. Emu3 est également capable de générer des vidéos haute fidélité en prédisant le jeton suivant dans une séquence vidéo. Contrairement à Sora qui utilise un modèle de diffusion vidéo pour générer des vidéos à partir de bruit, Emu3 génère des vidéos de manière causale en prédisant le jeton suivant dans la séquence vidéo. Ce modèle peut simuler certains aspects du monde réel, notamment les environnements, les personnages et les animaux, et prédire ce qui va se passer ensuite étant donné un contexte vidéo.

image.png

Emu3 simplifie la conception de modèles multimodaux complexes en se concentrant sur les jetons, ce qui libère un énorme potentiel d'extension lors de l'entraînement et de l'inférence. Les résultats de la recherche montrent que la prédiction du jeton suivant est une voie efficace pour construire une intelligence multimodale générale dépassant le langage. Pour soutenir la recherche future dans ce domaine, l'équipe Emu3 a open-sourcé les technologies et les modèles clés, y compris un puissant tokeniseur visuel capable de convertir des vidéos et des images en jetons discrets, ce qui était auparavant indisponible publiquement.

Le succès d'Emu3 ouvre la voie aux développements futurs des modèles multimodaux et offre de nouveaux espoirs pour la réalisation de l'AGI.

Adresse du projet : https://github.com/baaivision/Emu3