重新定义多模态AI！智源发布原生多模态世界模型Emu3

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年10月21号 13:52

184

北京智源人工智能研究院宣布推出原生多模态世界模型Emu3。这一模型基于下一个token预测技术，无需依赖扩散模型或组合方法，就能够完成文本、图像、视频三种模态数据的理解和生成。Emu3在图像生成、视频生成、视觉语言理解等任务中超过了现有的知名开源模型，如SDXL、LLaVA、OpenSora等，展现了卓越的性能。

微信截图_20241021135044.png

Emu3模型的核心是一个强大的视觉tokenizer，它能将视频和图像转换为离散token，这些token可以与文本tokenizer输出的离散token一起送入模型中。模型输出的离散token可以被转换为文本、图像和视频，为Any-to-Any任务提供了统一的研究范式。此外，Emu3的下一个token预测框架的灵活性使得直接偏好优化（DPO）能够无缝应用于自回归视觉生成，使模型与人类偏好保持一致。

微信截图_20241021135121.png

Emu3的研究结果证明了下一个token预测可以作为多模态模型的一个强大范式，实现超越语言本身的大规模多模态学习，并在多模态任务中实现先进的性能。通过将复杂的多模态设计收敛到token本身，Emu3在大规模训练和推理中释放了巨大的潜力。这一成果为构建多模态AGI提供了一条前景广阔的道路。

目前，Emu3的关键技术和模型已经开源，包括经过SFT的Chat模型和生成模型，以及相应的SFT训练代码，以便后续研究和社区构建与集成。

代码:https://github.com/baaivision/Emu3

项目页面:https://emu.baai.ac.cn/

模型:https://huggingface.co/collections/BAAI/emu3-66f4e64f70850ff358a2e60f

智源发布原生多模态世界模型Emu3：仅靠下一个token预测实现文本、图像和视频理解和生成

智源研究院正式发布了他们的新一代多模态世界模型 Emu3，该模型的最大亮点在于，它仅依靠下一个 token 的预测能力，就能在文本、图像和视频这三种不同模态中进行理解和生成。在图像生成方面，Emu3能够根据视觉 token 预测生成高质量的图像。这意味着用户可以期待灵活的分辨率和多样的风格。而在视频生成方面，Emu3则是以一种全新的方式工作，不同于其他模型通过噪声生成视频，Emu3通过顺序预测直接生成视频。这种技术的进步使得视频生成变得更加流畅自然。在图像生成、视频生成和

颠覆 Stable Diffusion！智源重磅发布 Emu3，图像、文本、视频全拿下！

来自智源研究院的Emu3团队发布了一套全新的多模态模型Emu3，该模型仅基于下一个token预测进行训练，颠覆了传统的扩散模型和组合模型架构，在生成和感知任务上均取得了最先进的性能。一直以来，下一个token预测被认为是通向人工智能通用智能（AGI）的希望之路，但在多模态任务上却表现不佳。目前，多模态领域仍然由扩散模型(如Stable Diffusion)和组合模型(如CLIP与LLM的结合)主导。Emu3团队将图像、文本和视频都标记化到离散空间中，并在混合的多模态序列上从头开始训练单个Transformer模型

超牛多模态模型Emu3：通过预测下一个词的方式理解图像、视频

在人工智能的浩瀚海洋中，一艘名为Emu3的创新之船正在破浪前行，为我们展示了多模态AI的无限可能。这个由Meta AI研究团队开发的革命性模型，通过简单而巧妙的"下一步预测"机制，实现了文本、图像和视频的统一处理。Emu3的核心思想是将各种内容转换为离散符号，然后利用单一的Transformer模型来预测下一个符号。这种方法不仅简化了模型架构，还让Emu3在多个领域展现出惊人的能力。从高质量图像生成到准确的图文理解，从连贯的对话响应到流畅的视频创作，Emu3都能轻松应对。在图像生

AI新闻资讯

重新定义多模态AI！智源发布原生多模态世界模型Emu3

AIbase基地

相关AI新闻推荐

智源发布原生多模态世界模型Emu3：仅靠下一个token预测实现文本、图像和视频理解和生成

颠覆 Stable Diffusion！智源重磅发布 Emu3，图像、文本、视频全拿下！

超牛多模态模型Emu3：通过预测下一个词的方式理解图像、视频