Tencent EMMA
Modelo de geração de imagem a partir de texto multimodal
Novo Produto PremiumImagemGeração de ImagensMultimodal
EMMA é um novo modelo de geração de imagem baseado no modelo de difusão texto-para-imagem de ponta ELLA. Ele aceita prompts multimodais, integrando efetivamente informações de texto e modalidades complementares através de um inovador design de conector de recursos multimodais. O modelo revela uma característica interessante dos modelos de difusão pré-treinados T2I: a capacidade de receber prompts multimodais, congelando todos os parâmetros do modelo T2I original e ajustando apenas algumas camadas adicionais. EMMA é facilmente adaptável a diferentes frameworks existentes, sendo uma ferramenta flexível e eficiente para gerar imagens e até vídeos personalizados e contextualmente conscientes.