最近,InstantX团队联合南京理工大学、北京航空航天大学以及北京大学的研究团队联合开发了一种名为 CSGO 的全新风格迁移模型,旨在提升图像生成技术,尤其是在内容和风格的结合方面。

image.png

CSGO 主要支持3种模式的风格迁移,具体如下:

1、内容图片+风格参考图片,合成该内容的风格图片。如下面的案例,给出需要更换风格的原图片如“熊、房子”,然后给出风格参考图片,就能将原图的风格改变称参考风格的图片。

image.png

2、风格参考图片+文字提示,合成文字内容的风格图片。如下面的案例,给出参考风格图片,给出文字提示,如“一只猫、一条狗、一个男人、一只熊猫”,就能生成对应内容风格图片。

image.png

3)通过文字编辑图片中的指定对象。

image.png

CSGO 模型的核心在于其独特的数据构建流程,研究团队精心设计了一个数据生成和自动清洗的管道,构建了一个名为 IMAGStyle 的大规模风格转移数据集。这个数据集中包含了21万个图像三元组,成为学术界研究和探索图像生成技术的重要资源。

该模型的设计理念十分新颖,CSGO 能够在图像生成的过程中,明确区分内容和风格特征。研究者表示,这种模型的优势在于它的端到端训练方式,这意味着在推理阶段不需要再进行微调。

同时,CSGO 模型的另一大亮点是保留了原始文本到图像模型的生成能力,没有对 UNet 进行训练。通过这些创新,CSGO 实现了图像驱动的风格转移、文本驱动的风格合成和文本编辑驱动的风格合成。

在实验结果方面,CSGO 的表现非常出色,研究者们提供了一系列定量和可视化的对比数据,与现有的最新方法进行了全面的比较,展示了 CSGO 在风格控制能力上的优势。

划重点:

🌟 CSGO 模型通过创新的数据构建管道,成功生成了包含21万个图像三元组的 IMAGStyle 数据集。

🎨 该模型实现了内容和风格的明确分离,支持多种生成方式,包括图像驱动和文本驱动的风格转移。

📊 实验结果表明,CSGO 在风格控制能力方面优于现有技术,展示了图像生成的新高度。