Emu3 est un modèle multimodale dernier cri, entraîné uniquement par la prédiction du jeton suivant, capable de traiter des images, du texte et des vidéos. Il surpasse plusieurs modèles phares spécifiques à une tâche pour les tâches de génération et de perception, sans nécessiter d'architecture de diffusion ou composite. Emu3 simplifie la conception complexe des modèles multimodaux en unifiant les séquences multimodales dans un seul modèle Transformer, démontrant un potentiel considérable d'extensibilité lors de l'entraînement et de l'inférence.