L'Institut d'Intelligence Artificielle de Pékin (Beijing Academy of Artificial Intelligence - BAAI) a publié Emu2, une nouvelle génération de modèle fondamental multimodal. Grâce à un entraînement multimodal auto-régressif à grande échelle, Emu2 a permis une avancée significative dans les capacités d'apprentissage contextuel multimodal.
Emu2 excelle dans les tâches de compréhension multimodale avec peu d'exemples, surpassant des modèles de pointe tels que Flamingo-80B et IDEFICS-80B. Il a atteint des performances optimales dans plusieurs tâches de compréhension avec peu d'exemples, de question-réponse visuelle et de génération d'images.
Emu2-Chat comprend précisément les instructions textuelles et visuelles, permettant une meilleure perception de l'information, une compréhension des intentions et une planification décisionnelle améliorée.
Emu2-Gen accepte des séquences d'entrée combinant images, texte et localisation, permettant une génération d'images et de vidéos flexible, contrôlable et de haute qualité.
Emu2 adopte un cadre de modélisation plus simple et atteint une taille de 37 milliards de paramètres.
Pour plus de détails, veuillez consulter le lien du projet publié par l'Institut d'Intelligence Artificielle de Pékin.