UNIMO-G

Geração Unificada de Imagens

Produto ComumImagemGeração de ImagensMultimodal
O UNIMO-G é uma estrutura de difusão condicional multimodal simples, projetada para lidar com entradas visuais e textuais intercaladas. Ele inclui dois componentes principais: um modelo de linguagem multimodal de grande porte (MLLM) para codificar prompts multimodais e uma rede de difusão condicional de desruído para gerar imagens com base na entrada multimodal codificada. Adotamos uma estratégia de treinamento em duas etapas para treinar a estrutura de forma eficiente: primeiro, pré-treinamos em pares texto-imagem em larga escala para desenvolver a capacidade de geração condicional de imagens, e depois realizamos um ajuste guiado por prompts multimodais para alcançar a capacidade de geração unificada de imagens. Utilizamos um processo de pré-processamento de dados cuidadosamente projetado, incluindo aterramento de linguagem e segmentação de imagens, para construir prompts multimodais. O UNIMO-G apresenta excelente desempenho em geração de imagem a partir de texto e síntese orientada por tópicos de zero-shot, mostrando-se particularmente eficaz na geração de imagens de alta fidelidade a partir de prompts multimodais complexos que envolvem várias entidades de imagem.
Abrir Site

UNIMO-G Situação do Tráfego Mais Recente

Total de Visitas Mensais

29742941

Taxa de Rejeição

44.20%

Média de Páginas por Visita

5.9

Duração Média da Visita

00:04:44

UNIMO-G Tendência de Visitas

UNIMO-G Distribuição Geográfica das Visitas

UNIMO-G Fontes de Tráfego

UNIMO-G Alternativas