Diffusion 模型也能“举一反三”？阿里IC-LoRA给图像生成模型增加情节记忆力能力

阿里巴巴通义实验室最新研究表明，现有的文生图 Diffusion Transformer 模型其实已经具备生成多张具有特定关系图像的能力，只需稍加“点拨”就能“融会贯通”，生成高质量的多图集。

传统的 Diffusion 模型更像是一个“死记硬背”的学生，需要用海量数据训练，才能生成高质量的图像。

而有了 IC-LoRA 加持，它就变成了“触类旁通”的学霸，只需要少量样本就能学会新技能。

这背后的原理说起来也不复杂，研究人员发现，现有的文生图 Diffusion 模型其实已经具备一定的“上下文学习”能力，只是需要一些技巧来激活它。

他们做了几个实验，直接用现成的文生图模型来生成多张图像，结果发现，模型确实能理解图片之间的关系，并生成具有一致性的图像集，虽然还有些小瑕疵，但已经很可观了。

于是，他们就设计了一套简单有效的流程，来唤醒 Diffusion 模型的“上下文学习”能力:

把多张图片拼接成一张大图，而不是像以前那样把 token 拼接起来，这样做相当于在 Diffusion 模型里直接处理图像，而不是抽象的 token。
把每张图片的文字描述合并成一个长长的 prompt，这样模型就能同时处理多张图片的信息，并理解它们之间的关系。

例如:

提示:“在这个冒险的三张图像序列中，[IMAGE1] Ethan，一位勇敢的考古学家，外表粗犷，在一个阳光明媚的沙漠挖掘现场发现了一张古老的地图，当他刷去沙子时，他的兴奋显而易见，[IMAGE2] 在一个充满活力的外国城市过渡到一个熙熙攘攘的市场，Ethan 在那里与当地商人谈判并为他的任务收集必需品， [图片3]最后，Ethan 跋涉穿过浓密、薄雾笼罩的丛林，高耸的树木和异国情调的野生动物强调了他旅程中的挑战和神秘之处。

提示:“在一个迷人的韧性故事中，[IMAGE1] 我们看到 Lena，一个坚定的女孩，在贫瘠的田野上播种，她的脸上充满了决心，[IMAGE2] 过渡到她培育植物，每天给它们浇水，她的努力慢慢见效，[IMAGE3] 最终在一个充满生机的郁郁葱葱的花园中结束，Lena 自豪地站在她的创造物中，象征着成长和毅力。

用少量高质量的图片集对模型进行微调，而不是像以前那样用几十万张图片进行大规模训练。这样做既能节省算力，又能保留模型原有的知识和“上下文学习”能力。

最终的 IC-LoRA 模型非常简单，不需要对原有的文生图模型进行任何修改，只需要根据具体的任务调整少量的训练数据就行了。

比如，你想让 Stable Diffusion 学会生成漫画风格的图像，只需要用几张漫画图片训练一下 IC-LoRA 模型，它就能生成各种你想要的漫画了，简直是“一点就通”。

提示:“这对图像呈现了从写实肖像到俏皮插图的转变，捕捉了细节和艺术天赋;[IMAGE1] 照片中，一名女子站在熙熙攘攘的市场中，戴着宽边帽，身穿飘逸的波西米亚风装，手里拿着皮质斜挎包;[IMAGE2] 插画版夸大了她的配饰和特征，波西米亚风格的连衣裙以充满活力的图案和大胆的色彩描绘，而背景则被简化为抽象的市场摊位，给场景带来生动活泼的感觉。

为了让 IC-LoRA 更强大，研究人员还加入了图像条件生成功能，简单来说就是根据已有的图片生成新的图片，比如根据一张人物照片生成不同表情、姿势的图片，或者根据一张风景照生成不同天气、光照的图片。

例如:

提示:“这组四张图片捕捉了一位老妇人照料她的花园的宁静时刻。[图片1]她跪在一床盛开的花坛旁，双手轻轻修剪一丛玫瑰花，柔和的晨光照亮了她银色的头发;[图片2] 她站在喷壶前，在培育植物时脸色平静祥和;[IMAGE3] 特写镜头显示，当她看着手中含苞待放的花朵时，她露出满足的笑容，自豪和喜悦之情显而易见;[IMAGE4] 她坐在一张小长凳上，在她的花园里喝茶，周围环绕着她辛勤工作的鲜艳色彩。