智源研究院发布了新一代多模态基础模型 Emu2,通过大规模自回归生成式多模态预训练,显著推动了多模态上下文学习能力的突破。Emu2 在少样本多模态理解任务上表现出色,超越了主流多模态预训练大模型 Flamingo-80B 和 IDEFICS-80B。Emu2 取得了多个少样本理解、视觉问答、图像生成任务上的最优性能。Emu2-Chat 可以精准理解图文指令,实现更好的信息感知、意图理解和决策规划。Emu2-Gen 可以接受图像、文本、位置交错的序列作为输入,实现灵活、可控、高质量的图像和视频生成。Emu2 采用了更简单的建模框架,并将模型规模化到 37B 参数。详情请参考智源研究院发布的项目链接。