Deep Floyd

Modelo de texto a imagen altamente realista

Producto ComúnImagenTexto a imagenSíntesis de imágenes
Deep Floyd es un modelo de texto a imagen de código abierto con una alta capacidad de realismo y comprensión del lenguaje. Está compuesto por un codificador de texto congelado y tres módulos de difusión de píxeles en cascada: un modelo base para generar imágenes de 64x64 píxeles a partir de un aviso de texto, y dos modelos de superresolución que generan imágenes con resolución creciente: 256x256 píxeles y 1024x1024 píxeles. Todas las etapas del modelo utilizan un codificador de texto congelado basado en el transformador T5 para extraer incrustaciones de texto, las cuales se introducen luego en una arquitectura UNet mejorada con atención cruzada y agrupación de atención. Este modelo eficiente supera en rendimiento a los modelos de vanguardia actuales, logrando una puntuación FID de 6.66 en el conjunto de datos COCO con cero ejemplos. Nuestro trabajo destaca el potencial de una arquitectura UNet más grande en la primera etapa de los modelos de difusión en cascada y muestra un futuro prometedor para la síntesis de imágenes a partir de texto.
Abrir sitio web

Deep Floyd Situación del tráfico más reciente

Total de visitas mensuales

474564576

Tasa de rebote

36.20%

Páginas promedio por visita

6.1

Duración promedio de la visita

00:06:34

Deep Floyd Tendencia de visitas

Deep Floyd Distribución geográfica de las visitas

Deep Floyd Fuentes de tráfico

Deep Floyd Alternativas