Deep Floyd
Modelo de texto a imagen altamente realista
Producto ComúnImagenTexto a imagenSíntesis de imágenes
Deep Floyd es un modelo de texto a imagen de código abierto con una alta capacidad de realismo y comprensión del lenguaje. Está compuesto por un codificador de texto congelado y tres módulos de difusión de píxeles en cascada: un modelo base para generar imágenes de 64x64 píxeles a partir de un aviso de texto, y dos modelos de superresolución que generan imágenes con resolución creciente: 256x256 píxeles y 1024x1024 píxeles. Todas las etapas del modelo utilizan un codificador de texto congelado basado en el transformador T5 para extraer incrustaciones de texto, las cuales se introducen luego en una arquitectura UNet mejorada con atención cruzada y agrupación de atención. Este modelo eficiente supera en rendimiento a los modelos de vanguardia actuales, logrando una puntuación FID de 6.66 en el conjunto de datos COCO con cero ejemplos. Nuestro trabajo destaca el potencial de una arquitectura UNet más grande en la primera etapa de los modelos de difusión en cascada y muestra un futuro prometedor para la síntesis de imágenes a partir de texto.
Deep Floyd Situación del tráfico más reciente
Total de visitas mensuales
474564576
Tasa de rebote
36.20%
Páginas promedio por visita
6.1
Duración promedio de la visita
00:06:34