北京智源人工智能研究院(BAAI)近日宣布推出了一款全新的全能视觉生成模型OmniGen,标志着图像生成领域的一项重大突破。OmniGen模型以其统一性、简单性和跨任务知识迁移能力而著称,能够在单一框架内处理多种图像生成任务,包括文生图、图像编辑、主题驱动生成和视觉条件生成等。此外,OmniGen还能够处理一些经典的计算机视觉任务,如图像去噪和边缘检测,通过将这些任务转换为图像生成任务来实现。
OmniGen的核心优势在于其简化的架构和用户友好的操作,用户可以通过简单的指令完成复杂的图像生成任务,无需额外的插件或复杂的处理步骤。这种统一格式的学习使得OmniGen能够有效地跨不同任务迁移知识,应对未见过的任务和领域,并展示新颖的功能。
OmniGen模型的能力不仅限于上述内容,还包括基本的图像处理能力如去噪和边缘提取。模型的权重和代码已经开源,以便用户可以自行探索更多OmniGen的能力,并根据需要进行微调。智源研究院构建了一个大规模且多样化的统一图像生成数据集X2I,包含约1亿图像,未来将开源,以推动通用图像生成领域的发展。
相关链接:
Paper: https://arxiv.org/pdf/2409.11340
Code: https://github.com/VectorSpaceLab/OmniGen
Demo: https://huggingface.co/spaces/Shitao/OmniGen