Deep Floyd
Modelo de texto para imagem altamente realista
Produto ComumImagemTexto para imagemSíntese de imagem
Deep Floyd é um modelo de texto para imagem de código aberto, com alto realismo e capacidade de compreensão de linguagem. Ele é composto por um codificador de texto congelado e três módulos de difusão de pixels em cascata: um modelo base para gerar imagens de 64x64 pixels a partir de prompts de texto, e dois modelos de super-resolução, que geram imagens com resolução crescente: 256x256 pixels e 1024x1024 pixels. Todos os estágios do modelo utilizam o codificador de texto congelado baseado em T5 transformer para extrair embeddings de texto, que são então inseridos em uma arquitetura UNet aprimorada com atenção cruzada e pooling de atenção. Este modelo eficiente supera os modelos de ponta atuais, alcançando um FID de zero-shot de 6,66 no conjunto de dados COCO. Nosso trabalho destaca o potencial de uma arquitetura UNet maior na primeira fase dos modelos de difusão em cascata e demonstra um futuro promissor para a síntese de imagem a partir de texto.
Deep Floyd Situação do Tráfego Mais Recente
Total de Visitas Mensais
474564576
Taxa de Rejeição
36.20%
Média de Páginas por Visita
6.1
Duração Média da Visita
00:06:34