智源研究院发布 Emu2：新一代生成式多模态基础模型

站长之家

发布于AI新闻资讯 · 1 分钟阅读 · 2023年12月22号 8:58

智源研究院发布了新一代多模态基础模型 Emu2，通过大规模自回归生成式多模态预训练，显著推动了多模态上下文学习能力的突破。Emu2 在少样本多模态理解任务上表现出色，超越了主流多模态预训练大模型 Flamingo-80B 和 IDEFICS-80B。Emu2 取得了多个少样本理解、视觉问答、图像生成任务上的最优性能。Emu2-Chat 可以精准理解图文指令，实现更好的信息感知、意图理解和决策规划。Emu2-Gen 可以接受图像、文本、位置交错的序列作为输入，实现灵活、可控、高质量的图像和视频生成。Emu2 采用了更简单的建模框架，并将模型规模化到 37B 参数。详情请参考智源研究院发布的项目链接。

智源研究院与腾讯达成战略合作推动大模型、AI等应用落地

智源研究院与腾讯集团于2024年12月18日签署了战略合作协议，双方将在大模型研发、人工智能技术前沿探索及开源生态建设等多个领域进行深入合作。根据合作协议，智源研究院与腾讯将利用各自的优势，推动大模型技术与产业场景的深度融合，并探索在多元算力环境下的大模型训练与推理优化技术解决方案。双方还将致力于构建一个开放创新的软硬件生态体系，以促进技术的发展和应用。

智源发布原生多模态世界模型Emu3：仅靠下一个token预测实现文本、图像和视频理解和生成

智源研究院正式发布了他们的新一代多模态世界模型 Emu3，该模型的最大亮点在于，它仅依靠下一个 token 的预测能力，就能在文本、图像和视频这三种不同模态中进行理解和生成。在图像生成方面，Emu3能够根据视觉 token 预测生成高质量的图像。这意味着用户可以期待灵活的分辨率和多样的风格。而在视频生成方面，Emu3则是以一种全新的方式工作，不同于其他模型通过噪声生成视频，Emu3通过顺序预测直接生成视频。这种技术的进步使得视频生成变得更加流畅自然。在图像生成、视频生成和

智源研究院推出全球首个中文大模型辩论平台FlagEval Debate

北京智源人工智能研究院（BAAI）最近推出了全球首个中文大模型辩论平台FlagEval Debate。这一新平台旨在通过模型辩论这一竞争机制，为大语言模型的能力评估提供新的度量方式。它是智源模型对战评测服务FlagEval大模型角斗场的扩展，目标是甄别大语言模型之间的能力差异。

智源研究院发布中文互联网语料库CCI3.0 包含1000GB数据集

在2024北京文化论坛上，北京智源人工智能研究院（BAAI）宣布正式发布新一代中文互联网语料库CCI3.0(Chinese Corpora Internet)，进一步推动数据共建共享。CCI3.0包含1000GB的数据集及498GB的高质量子集CCI3.0-HQ，是继2023年11月首次开源CCI1.0和2024年4月发布CCI2.0之后的又一次重要更新。

AI新闻资讯