近日,北京人工智能学院的研究团队推出了一款名为 OmniGen 的全新图像生成模型。
全能型图片生成编辑选手
与以往的图像生成工具如 Stable Diffusion ,OmniGen 最大的亮点是,它不再只是专注于单一任务,它具备了多种能力:
能在一个统一的框架下处理多种图像生成任务能:包括从文本到图像生成、图像编辑,可以说是个全能选手。
这意味着,用户只需提供简单提示词,就能控制图像生成与精细编辑,而不再需要再使用 ControlNet、IP-Adapter 这样的插件对图片进行细节调整!
这里AIbase基于给出一个详细老式相机创意拍照的效果提示词,整体生成的效果细节感,满满,效果如下:
提示词:A vintage camera placed on the ground, ejecting a swirling cloud of Polaroid-style photographs into the air. The photos, showing landscapes, wildlife, and travel scenes, seem to defy gravity, floating upward in a vortex of motion. The camera emits a glowing, smoky light from within, enhancing the magical, surreal atmosphere. The dark background contrasts with the illuminated photos and camera, creating a dreamlike, nostalgic scene filled with vibrant colors and dynamic movement. Scattered photos are visible on the ground, further contributing to the idea of an explosion of captured memories.
再比如下面的三个官方案例,上传两张图,输入相关提示词,就能融合在一个场景中出现。
OmniGen 的架构非常简化。与以往的图像生成模型不同,它不再需要额外的文本编码器或繁琐的工作流程。只要输入条件,OmniGen 就能高效地生成图像,极大地提升了用户体验。它结合了变分自编码器和预训练的 Transformer 模型,从而在一个模型中同时处理图像和文本输入,减少了不必要的复杂性。
为了增强图像生成的效果,OmniGen 还采用了校正流训练方法,这种方式通过直接回归目标速度,使得图像生成的控制更加精准。此外,它的渐进式训练策略让模型从低分辨率到高分辨率逐步掌握生成技巧,效果相当出色。
OmniGen在图像生成媲美先进模型
据了解,OmniGen 的训练数据集也非常庞大多样,涵盖了各种图像生成任务。为了确保模型在多任务处理上的强大能力,研究人员构建了一个叫做 X2I 的大规模数据集,其中包含了文本到图像、图像编辑等多个任务的数据。这使得 OmniGen 能够有效地从不同的任务中学习和迁移知识,展现出新的生成能力。
在多项测试中,OmniGen 的表现让人惊艳,其在文本到图像生成方面,它与市面上最先进的模型表现相当。在 GenEval 基准测试中, OmniGen 仅使用了0.1亿张图像进行训练,而 SD3使用了超过10亿张图像。
图像编辑能力也同样优秀,能够精准把控源图像和编辑指令。比如在 EMU-Edit 测试集上,超越了 InstructPix2Pix 等知名模型,甚至与当前最先进的 EMU-Edit 模型相当。
而在主体驱动生成的任务中,OmniGen 更是展示出了超凡的个性化能力,适合艺术创作和广告设计等多个领域。
试玩地址:https://huggingface.co/spaces/Shitao/OmniGen
论文:https://arxiv.org/html/2409.11340v1