Deep Floyd

Modelo de texto para imagem altamente realista

Produto ComumImagemTexto para imagemSíntese de imagem
Deep Floyd é um modelo de texto para imagem de código aberto, com alto realismo e capacidade de compreensão de linguagem. Ele é composto por um codificador de texto congelado e três módulos de difusão de pixels em cascata: um modelo base para gerar imagens de 64x64 pixels a partir de prompts de texto, e dois modelos de super-resolução, que geram imagens com resolução crescente: 256x256 pixels e 1024x1024 pixels. Todos os estágios do modelo utilizam o codificador de texto congelado baseado em T5 transformer para extrair embeddings de texto, que são então inseridos em uma arquitetura UNet aprimorada com atenção cruzada e pooling de atenção. Este modelo eficiente supera os modelos de ponta atuais, alcançando um FID de zero-shot de 6,66 no conjunto de dados COCO. Nosso trabalho destaca o potencial de uma arquitetura UNet maior na primeira fase dos modelos de difusão em cascata e demonstra um futuro promissor para a síntese de imagem a partir de texto.
Abrir Site

Deep Floyd Situação do Tráfego Mais Recente

Total de Visitas Mensais

474564576

Taxa de Rejeição

36.20%

Média de Páginas por Visita

6.1

Duração Média da Visita

00:06:34

Deep Floyd Tendência de Visitas

Deep Floyd Distribuição Geográfica das Visitas

Deep Floyd Fontes de Tráfego

Deep Floyd Alternativas