ConsiStory

训练无监督一致性文本到图像生成

普通产品图像图像生成一致性

ConsiStory是一个无需训练就能实现在预训练的文本到图像模型中生成一致性主体的方法。它不需要微调或个性化,因此比先前最优方法快20倍。我们通过引入以主体为驱动的共享注意力模块和基于对应关系的特征注入来增强模型,以促进图像之间的主体一致性。另外,我们开发了在保持主体一致性的同时鼓励布局多样性的策略。ConsiStory可以自然地扩展到多主体场景,甚至可以实现对常见对象的无需训练的个性化。

Best AI Websites & Tools

ConsiStory

ConsiStory 替代品

Janus-Pro-7B — Janus-Pro-7B 是一个新型的自回归框架，统一多模态理解和生成。

Janus-Pro-1B — Janus-Pro-1B 是一个统一多模态理解和生成的自回归框架。

Flex.1-alpha — 一个基于文本生成图像的预训练模型，具有80亿参数和Apache 2.0开源许可。

Worlds of Frames — Frames 是 Runway 推出的高级图像生成基础模型，提供前所未有的风格控制和视觉保真度。

TryOffAnyone — 从穿着人身上生成平铺布料的模型

BooW-VTON — 提升户外虚拟试穿效果的模型训练代码库

ControlNets for Stable Diffusion 3.5 Large — Stable Diffusion 3.5 Large的三款ControlNets模型

OminiControl — FLUX.1的最小且通用的控制器

Qwen2vl-Flux — 先进的多模态图像生成模型，结合文本提示和视觉参考生成高质量图像。

FLUX.1-dev LoRA Outfit Generator — 基于文本生成服装图像的AI模型

IC-Light V2 — 基于Flux的IC-Light模型，专注于图像细节保留和风格化处理

sd3.5 — 轻量级推理模型，用于生成高质量图像

Stable Diffusion 3.5 — 强大的图像生成模型

RealAnime — 基于Stable Diffusion的LoRA模型，生成逼真动漫风格图像

CogView3-Plus-3B — 文本到图像生成模型，支持高分辨率图像生成

Omni-Zero-Couples — 零样本风格化情侣肖像创作

Open-MAGVIT2 — 开源自回归视觉生成模型项目

DeepMind — 谷歌旗下领先的人工智能研究公司

GenWarp — 生成新视角的图像，保持语义信息。

DiffusionKit — 在苹果硅片上运行扩散模型的推理工具。

AuraFlow v0.3 — 开源文本到图像生成模型

x-flux — 深度学习模型训练脚本集

SD3-Controlnet-Canny — 一种用于生成图像的深度学习模型。

SDXL Flash — 高效能的文本到图像生成模型

StoryDiffusion — StoryDiffusion 能够通过生成一致的图像和视频来创造魔法故事。

FaceChain — 深度学习工具链，用于生成你的数字孪生体。

GenAI Courses — AI学习平台

ControlNet++ — 提升文本到图像生成的可控性

OPT2I — 利用LLM提高T2I图像生成一致性