ConsiStory

Generación de texto a imagen con coherencia sin entrenamiento

Producto ComúnImagenGeneración de imágenesCoherencia

ConsiStory es un método que permite generar imágenes con sujetos coherentes en modelos preentrenados de texto a imagen sin necesidad de entrenamiento. No requiere ajuste fino ni personalización, lo que lo hace 20 veces más rápido que los métodos anteriores. Mejoramos el modelo mediante la introducción de un módulo de atención compartido impulsado por el sujeto y una inyección de características basada en correspondencias para fomentar la coherencia del sujeto entre las imágenes. Además, desarrollamos una estrategia que fomenta la diversidad de diseño manteniendo la coherencia del sujeto. ConsiStory se puede ampliar de forma natural a escenarios con múltiples sujetos e incluso permite la personalización sin entrenamiento de objetos comunes.

Generación de sujetos coherentes
Diversidad de diseño
Generación de múltiples sujetos
Personalización sin entrenamiento

\Se puede utilizar para generar una serie de imágenes sobre un tema determinado
como imágenes de productos
personajes
etc.\

Generar una serie de imágenes del mismo personaje
Generar una serie de imágenes de un mismo producto desde diferentes ángulos
Generar una serie coherente de obras de arte

Best AI Websites & Tools

ConsiStory

ConsiStory Alternativas

ConsiStory — Generación de texto a imagen con coherencia sin entrenamiento

CogView4-6B — CogView4-6B es un potente modelo de generación de imágenes a partir de texto, centrado en la generación de imágenes de alta calidad.

Janus-Pro-7B — Janus-Pro-7B es un nuevo marco autorregresivo que unifica la comprensión y la generación multimodales.

Janus-Pro-1B — Janus-Pro-1B es un marco autorregresivo unificado de comprensión y generación multimodal.

Flex.1-alpha — Un modelo de preentrenamiento para generar imágenes a partir de texto, con 8 mil millones de parámetros y licencia de código abierto Apache 2.0.

Mundos de Frames — Frames es un modelo base de generación de imágenes de alta gama de Runway, que ofrece un control de estilo y una fidelidad visual sin precedentes.

TryOffAnyone — Modelo de aprendizaje profundo para generar imágenes de telas desplegadas a partir de imágenes de personas vestidas.

BooW-VTON — Repositorio de código para entrenar modelos que mejoran el efecto de la prueba virtual de ropa al aire libre.

ControlNets para Stable Diffusion 3.5 Large — Tres modelos ControlNets para Stable Diffusion 3.5 Large

OminiControl — Controlador mínimo y universal para FLUX.1

Qwen2vl-Flux — Modelo de generación de imágenes multimodales avanzado que combina indicaciones de texto y referencias visuales para generar imágenes de alta calidad.

Generador de atuendos FLUX.1-dev LoRA — Modelo de IA para generar imágenes de ropa a partir de texto

IC-Light V2 — Modelo IC-Light basado en Flux, enfocado en la preservación de detalles y el procesado de estilo en imágenes.

sd3.5 — Modelo de inferencia ligero para generar imágenes de alta calidad

Stable Diffusion 3.5 — Poderoso modelo de generación de imágenes

RealAnime — Modelo LoRA basado en Stable Diffusion para generar imágenes de estilo anime realistas.

CogView3-Plus-3B — Modelo de generación de imágenes a partir de texto, compatible con la generación de imágenes de alta resolución.

Omni-Zero-Parejas — Creación de retratos de parejas estilizados con cero ejemplos

Open-MAGVIT2 — Proyecto de modelo de generación de imágenes autoregresivo de código abierto

DeepMind — Empresa líder en investigación de inteligencia artificial perteneciente a Google

GenWarp — Genera imágenes desde una nueva perspectiva, manteniendo la información semántica.

DiffusionKit — Herramienta de inferencia de modelos de difusión que se ejecuta en chips Apple Silicon.

AuraFlow v0.3 — Modelo de generación de imágenes a partir de texto de código abierto

x-flux — Conjunto de scripts de entrenamiento de modelos de aprendizaje profundo

SD3-ControlNet-Canny — Un modelo de aprendizaje profundo para generar imágenes.

SDXL Flash — Modelo de generación de imagen a partir de texto de alto rendimiento

FaceChain — Cadena de herramientas de aprendizaje profundo para generar tu gemelo digital.

ControlNet++ — Mejora el control en la generación de imágenes a partir de texto

OPT2I — Mejora la coherencia de la generación de imágenes T2I mediante LLM

SDXS — Modelo de difusión potencial en tiempo real de un solo paso, con control de generación mediante condiciones de imagen.