吊打ControlNe？全能型图像生成模型OmniGen问世，简单提示实现图像生成与精细编辑

AIbase基地

发布于AI新闻资讯 · 2 分钟阅读 · Oct 24, 2024

803

近日，北京人工智能学院的研究团队推出了一款名为 OmniGen 的全新图像生成模型。

全能型图片生成编辑选手

与以往的图像生成工具如 Stable Diffusion ，OmniGen 最大的亮点是，它不再只是专注于单一任务，它具备了多种能力:

能在一个统一的框架下处理多种图像生成任务能:包括从文本到图像生成、图像编辑，可以说是个全能选手。

这意味着，用户只需提供简单提示词，就能控制图像生成与精细编辑，而不再需要再使用 ControlNet、IP-Adapter 这样的插件对图片进行细节调整!

这里AIbase基于给出一个详细老式相机创意拍照的效果提示词，整体生成的效果细节感，满满，效果如下：

提示词：A vintage camera placed on the ground， ejecting a swirling cloud of Polaroid-style photographs into the air. The photos， showing landscapes， wildlife， and travel scenes， seem to defy gravity， floating upward in a vortex of motion. The camera emits a glowing， smoky light from within， enhancing the magical， surreal atmosphere. The dark background contrasts with the illuminated photos and camera， creating a dreamlike， nostalgic scene filled with vibrant colors and dynamic movement. Scattered photos are visible on the ground， further contributing to the idea of an explosion of captured memories.

再比如下面的三个官方案例，上传两张图，输入相关提示词，就能融合在一个场景中出现。

OmniGen 的架构非常简化。与以往的图像生成模型不同，它不再需要额外的文本编码器或繁琐的工作流程。只要输入条件，OmniGen 就能高效地生成图像，极大地提升了用户体验。它结合了变分自编码器和预训练的 Transformer 模型，从而在一个模型中同时处理图像和文本输入，减少了不必要的复杂性。

为了增强图像生成的效果，OmniGen 还采用了校正流训练方法，这种方式通过直接回归目标速度，使得图像生成的控制更加精准。此外，它的渐进式训练策略让模型从低分辨率到高分辨率逐步掌握生成技巧，效果相当出色。

OmniGen在图像生成媲美先进模型

据了解，OmniGen 的训练数据集也非常庞大多样，涵盖了各种图像生成任务。为了确保模型在多任务处理上的强大能力，研究人员构建了一个叫做 X2I 的大规模数据集，其中包含了文本到图像、图像编辑等多个任务的数据。这使得 OmniGen 能够有效地从不同的任务中学习和迁移知识，展现出新的生成能力。

在多项测试中，OmniGen 的表现让人惊艳，其在文本到图像生成方面，它与市面上最先进的模型表现相当。在 GenEval 基准测试中， OmniGen 仅使用了0.1亿张图像进行训练，而 SD3使用了超过10亿张图像。

图像编辑能力也同样优秀，能够精准把控源图像和编辑指令。比如在 EMU-Edit 测试集上，超越了 InstructPix2Pix 等知名模型，甚至与当前最先进的 EMU-Edit 模型相当。

而在主体驱动生成的任务中，OmniGen 更是展示出了超凡的个性化能力，适合艺术创作和广告设计等多个领域。

试玩地址:https://huggingface.co/spaces/Shitao/OmniGen

论文:https://arxiv.org/html/2409.11340v1

OmniGen 图像生成模型 StableDiffusion AI

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

瑞士研究人员承认在 Reddit 上秘密发布 AI 生成内容，涉嫌违反伦理

瑞士苏黎世大学的研究人员承认，他们在著名的 Reddit 社区 r/changemyview 上秘密发布了由人工智能生成的帖子，目的是为了科学研究。研究人员在一份草稿报告中指出，r/changemyview 是一个用户分享各种观点的地方，旨在通过提出论据和反论据来挑战他人的观点，从而进行文明的讨论。研究者希望通过该平台探讨大型语言模型（LLM）生成的内容是否能够改变读者的看法，因此他们以半自动化的 AI 账户参与了讨论。图源备注：图片由AI生成，图片授权服务商Midjourney根据研究人员的计划，他们打算

2025年4月29号 17:34

1.5k

2024 年中国 MaaS 与 AI 大模型解决方案市场迎来爆发式增长

根据国际数据公司（IDC）发布的最新报告，2024年中国模型即服务(MaaS)及 AI 大模型解决方案市场将迎来显著增长，全年市场规模预计达到7.1亿元人民币，相较于2023年实现215.7% 的同比激增。其中，2024年下半年市场规模将达到4.6亿元人民币。展望未来五年，这一市场将以66.1% 的年均复合增长率继续扩张，预计到2029年市场规模将达到90亿元人民币。同时，AI 大模型解决方案市场也保持了强劲的增长态势，2024年全年市场规模预计达到34.9亿元人民币，同比增长126.4%。该市场在2024年下半年将达到21亿

2025年4月29号 17:18

560

Tempus推出Loop平台：利用AI加速癌症靶点发现与验证

位于芝加哥的科技公司 Tempus AI， Inc.（纳斯达克股票代码:TEM）正式发布了其新款平台 “Loop”，该平台旨在提升癌症治疗中的靶点发现与验证效率。Loop 结合了真实世界数据(RWD)、人类生物模型和 CRISPR 筛选技术，利用人工智能(AI)快速挖掘出新颖的靶点，为临床前药物开发提供支持。目前，药物研发领域面临的主要挑战之一是如何将成功的临床前实验转化为能够惠及患者的治疗方案。传统的靶点发现方法往往依赖细胞系或动物模型，但这些方法未必能准确反映人类肿瘤的真实情况。而 Loop 平

2025年4月29号 17:14

430

新创公司Cheehoo推出AI动画工具，助力艺术家与创作者

近日，一家名为 Cheehoo 的新兴科技娱乐公司在 beta 版中正式上线，旨在利用人工智能技术革新动画制作。该公司的创始团队由多位行业内知名人士组成，包括前梦工厂动画总裁 Chris deFaria、前苹果科学家及 AI / 机器学习专家 Dr. Hubert Tsai 和 Dr. Wei-Cheng Kuo，以及 Rideback 的联合首席执行官 Michael LoFaso 和 Jonathan Eirich。此外，Netflix 电影部门的主席及 Rideback 创始人 Dan Lin 也是 Cheehoo 的共同创始人之一。Cheehoo 不仅拥有强大的创始团队，还吸引了在 AI 研究、数据安全、动画及游戏领域的多位创意和技

2025年4月29号 17:00

800

凯捷发布2025财年第一季度财报:AI 订单增长显著

凯捷（Capgemini）在2025财年第一季度的财报中显示出 “超出预期” 的业绩。尽管在上个财年经历了1.9% 的营收下降，凯捷在2025财年第一季度的营收达到了55亿欧元(约合5335亿印度卢比)，同比在固定汇率下下降了0.4%。图源备注:图片由AI生成，图片授权服务商Midjourney本季度的订单总额达到了58亿欧元，展现出强劲的账单比率，达到了1.06。凯捷的首席执行官艾曼・艾扎特（Aiman Ezzat）表示:“在宏观和地缘政治环境依然严峻的情况下，我们在第一季度的表现略好于预期。客户们持续关注于提升灵活

2025年4月29号 17:00

450

微软顶尖AI研究员加盟清华大学，强化中美科技人才竞争

在中美科技竞争加剧的背景下，中国清华大学成功吸引了一位来自美国的顶尖人工智能（AI）研究员 —— 亚历克斯・兰博(Alex Lamb)。他曾在微软研究院担任高级研究员，现已确认将在即将到来的秋季学期担任清华大学人工智能学院(CAI)的助理教授。这一举动再次显示了中国在全球 AI 领域的人才争夺战中愈发积极的态度。亚历克斯・兰博拥有约翰・霍普金斯大学的应用数学与计算机科学学士学位，并在蒙特利尔大学获得计算机科学博士学位。他的博士生导师是获得图灵奖的著名科学家约书亚

2025年4月29号 16:48

640

AI 疗法来袭：14 款开创性的心理健康工具让你重拾内心平静

近年来，随着技术的进步，人工智能（AI）在心理健康领域的应用越来越受到关注。新的生成式 AI 心理健康应用程序正在悄然改变治疗方式，提供匿名支持，并运用基于科学的方法，如认知行为疗法(CBT)和正念技巧。这些工具虽然无法替代训练有素的治疗师的人际连接和直觉，但研究显示，很多人愿意与这些相对无面孔的 AI 聊天机器人分享他们的烦恼与忧虑。以下是一些在心理健康领域引领潮流的 AI 工具。首先，Headspace 是一款流行的冥想应用，最近扩展成一个完整的数字心理健康平台，

2025年4月29号 16:30

970

CrowdStrike推出Charlotte AI升级，提升安全运营效率

近期，网络安全公司 CrowdStrike 推出了一系列新功能，旨在通过人工智能技术提升安全运营中心的效率。新推出的 Charlotte AI 系统，结合了智能自动化和专业的网络安全知识，加速了检测和响应的速度。CrowdStrike 宣布，Charlotte AI 现在具备了 Agentic Response 和 Agentic Workflows 两个新功能。这些新工具与之前的 Agentic Detection Triage 相结合，使得 AI 不仅能够简单响应，还能够进行自主推理和行动，利用内部和外部数据进行更深入的分析。支撑这些新功能的是 CrowdStrike 的 AI 原生 Falcon 平台，该平台被称

2025年4月29号 16:21

550

Grouphug：即将颠覆 WhatsApp 群聊的AI创意应用

近日，一家名为 Grouphug 的初创公司在科技界悄然亮相，这个由多位欧洲创业老兵组成的团队，旨在为 WhatsApp 群聊注入新的活力和趣味。虽然目前 Grouphug 的功能相对简单，主要是将用户的 WhatsApp 群聊文本转化为搞笑的图片，但其背后却隐藏着更为宏大的计划。Grouphug 的创始人费利克斯・彼得森（Felix Petersen）在接受采访时表示，他们认为自己已经找到了 “AI 幽默” 的突破口。目前，该应用只提供将聊天记录转换为表情包的功能，但团队正在积极开发一个更为复杂的平台，利用生成式人工

2025年4月29号 16:10

930

德国商业银行推AI虚拟助手Ava，革新数字银行体验

德国商业银行（Commerzbank）近日宣布推出一款名为 Ava 的人工智能虚拟助手，旨在为私人及小型企业客户提供自然流畅的交流体验。Ava 的推出是该行经过18个月研发的成果，运用微软 Azure OpenAI 服务的先进 GPT 模型，能够与客户进行高效互动。作为一款创新的数字助手，Ava 可以通过自然语言与用户进行对话，提供关于银行服务的普遍信息和个性化建议。无论是想了解银行产品，还是需要解决与个人账户相关的问题，Ava 都能够快速响应，帮助客户找到合适的解决方案。值得一提的是，Ava 不仅

2025年4月29号 15:59

670

AI资讯

AI日报

AI时间线

Al硬件

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图