Deep Floyd

Modelo de texto a imagen altamente realista

Producto ComúnImagenTexto a imagenSíntesis de imágenes

Deep Floyd es un modelo de texto a imagen de código abierto con una alta capacidad de realismo y comprensión del lenguaje. Está compuesto por un codificador de texto congelado y tres módulos de difusión de píxeles en cascada: un modelo base para generar imágenes de 64x64 píxeles a partir de un aviso de texto, y dos modelos de superresolución que generan imágenes con resolución creciente: 256x256 píxeles y 1024x1024 píxeles. Todas las etapas del modelo utilizan un codificador de texto congelado basado en el transformador T5 para extraer incrustaciones de texto, las cuales se introducen luego en una arquitectura UNet mejorada con atención cruzada y agrupación de atención. Este modelo eficiente supera en rendimiento a los modelos de vanguardia actuales, logrando una puntuación FID de 6.66 en el conjunto de datos COCO con cero ejemplos. Nuestro trabajo destaca el potencial de una arquitectura UNet más grande en la primera etapa de los modelos de difusión en cascada y muestra un futuro prometedor para la síntesis de imágenes a partir de texto.

Generar imágenes altamente realistas
Comprender indicaciones de texto y generar imágenes correspondientes
Admite la generación de imágenes de superresolución

Para tareas de síntesis de imágenes a partir de texto y generación de imágenes

Abrir sitio web

Deep Floyd Situación del tráfico más reciente

Total de visitas mensuales

474564576

Tasa de rebote

36.20%

Páginas promedio por visita

6.1

Duración promedio de la visita

00:06:34

Deep Floyd Tendencia de visitas

Deep Floyd Distribución geográfica de las visitas

Best AI Websites & Tools

Deep Floyd

Deep Floyd Situación del tráfico más reciente

Deep Floyd Tendencia de visitas

Deep Floyd Distribución geográfica de las visitas

Deep Floyd Fuentes de tráfico

Deep Floyd Alternativas

Deep Floyd — Modelo de texto a imagen altamente realista

DynamicControl — Selección adaptativa de condiciones, mejora el control de la generación de imágenes a partir de texto

Sana_600M_1024px — Marco de generación de imágenes a partir de texto de alta resolución y alta eficiencia

Sana_1600M_1024px_Multilingüe — Modelo de generación de imágenes a partir de texto, de alta resolución y con soporte multilingüe

Sana — Marco de síntesis de imágenes de alta resolución y alta eficiencia

Destilación de Consistencia de Trayectoria (TCD) — Técnica de destilación de consistencia para mejorar la calidad de la síntesis de imagen a partir de texto.

Ajuste Fino Ortogonal (OFT) — OFT estabiliza eficazmente el ajuste fino de modelos de difusión de texto a imagen.

CogView4-6B — CogView4-6B es un potente modelo de generación de imágenes a partir de texto, centrado en la generación de imágenes de alta calidad.

CogView4 — CogView4 es un modelo de generación de imágenes a partir de texto de alta resolución que admite chino e inglés.

DiffSplat — DiffSplat es un framework generativo que crea nubes de puntos gaussianas 3D a partir de indicaciones de texto e imágenes de vista única.

Fashion-Hut-Modeling-LoRA — Modelo de generación de imágenes a partir de texto basado en Diffusion, enfocado en la generación de imágenes con estilo de fotografía de modelos de moda.

Flux-Midjourney-Mix2-LoRA — Modelo de generación de imágenes a partir de texto basado en el estilo de Midjourney, enfocado en alta resolución y realismo.

NeuralSVG — NeuralSVG: Un método de representación neuronal implícita para generar gráficos vectoriales a partir de indicaciones de texto.

VMix — Herramienta para mejorar la calidad estética de los modelos de difusión de texto a imagen

Story-Adapter — Marco iterativo sin entrenamiento para la visualización de historias largas

LuminaBrush — Herramienta de dibujo de iluminación para modelos de difusión de texto a imagen.

Veo 2 — Modelo avanzado de generación de video de Google DeepMind

flux-condensation — Modelo de IA para generación de imágenes a partir de texto

Sana_600M_512px — Marco de generación de imágenes a partir de texto de alta eficiencia y alta resolución

shou_xin — Modelo de generación de bocetos a lápiz con estilo shou_xin

Bylo.ai — El mejor generador de imágenes IA gratuito

AWPortraitCN — Modelo de generación de retratos de personas chinas basado en FLUX.1-dev

Sana_1600M_512px_MultiLing — Modelo de generación de imágenes a partir de texto, de alta resolución y multilingüe

Sana_1600M_1024px — Marco de generación de imágenes a partir de texto de alta resolución y alta eficiencia

Sana_1600M_512px — Marco de generación de imágenes a partir de texto de alta resolución y alta eficiencia

MV-Adapter — Solución práctica para la generación de imágenes de consistencia multivista

FLUX-Vintage Abstract Film - Película vintage abstracta de ensueño — Modelo de estilo de película vintage descolorida, ideal para diversas situaciones de procesamiento de imágenes.

text-to-pose — Modelo que genera poses a partir de texto y, posteriormente, imágenes.

Sana-1.6B — Transformador de difusión lineal para la síntesis de imágenes de alta resolución