UNIMO-G
Geração Unificada de Imagens
Produto ComumImagemGeração de ImagensMultimodal
O UNIMO-G é uma estrutura de difusão condicional multimodal simples, projetada para lidar com entradas visuais e textuais intercaladas. Ele inclui dois componentes principais: um modelo de linguagem multimodal de grande porte (MLLM) para codificar prompts multimodais e uma rede de difusão condicional de desruído para gerar imagens com base na entrada multimodal codificada. Adotamos uma estratégia de treinamento em duas etapas para treinar a estrutura de forma eficiente: primeiro, pré-treinamos em pares texto-imagem em larga escala para desenvolver a capacidade de geração condicional de imagens, e depois realizamos um ajuste guiado por prompts multimodais para alcançar a capacidade de geração unificada de imagens. Utilizamos um processo de pré-processamento de dados cuidadosamente projetado, incluindo aterramento de linguagem e segmentação de imagens, para construir prompts multimodais. O UNIMO-G apresenta excelente desempenho em geração de imagem a partir de texto e síntese orientada por tópicos de zero-shot, mostrando-se particularmente eficaz na geração de imagens de alta fidelidade a partir de prompts multimodais complexos que envolvem várias entidades de imagem.
UNIMO-G Situação do Tráfego Mais Recente
Total de Visitas Mensais
29742941
Taxa de Rejeição
44.20%
Média de Páginas por Visita
5.9
Duração Média da Visita
00:04:44