Na área da pintura de inteligência artificial, os modelos de difusão (Diffusion Model) estão passando por uma transição de arquiteturas baseadas em Unet para arquiteturas baseadas em Transformer (DiT). No entanto, o ecossistema DiT ainda enfrenta desafios em termos de suporte a plug-ins, eficiência e controle multi-condicional. Recentemente, uma equipe liderada por Xiaojiu-z lançou uma estrutura inovadora chamada EasyControl, com o objetivo de fornecer aos modelos DiT uma capacidade de controle condicional eficiente e flexível, como se estivesse equipando os modelos DiT com um poderoso "ControlNet".

QQ_1744004917053.png

Principais Vantagens do EasyControl

EasyControl não é uma simples sobreposição de modelos, mas sim uma estrutura DiT condicional unificada cuidadosamente projetada. Suas principais vantagens residem na introdução de um módulo LoRA de injeção de condições leve (Condition Injection LoRA module), um paradigma de treinamento sensível à posição (Position-Aware Training Paradigm) e a combinação de mecanismos de atenção causal (Causal Attention) com a tecnologia de cache KV (KV Cache), resultando em uma melhoria significativa no desempenho. Esses designs inovadores permitem que o EasyControl se destaque em termos de compatibilidade de modelos (plug-and-play, controle de estilo sem perdas), flexibilidade de geração (suporta várias resoluções, proporções e combinações multi-condicionais) e eficiência de inferência.

Capacidade de Controle Poderosa: Mais do que Canny e OpenPose

Uma das características mais notáveis do EasyControl é sua poderosa capacidade de controle multi-condicional. Seu repositório de código mostra que o EasyControl suporta vários modelos de controle, incluindo, mas não se limitando a, detecção de bordas Canny, informações de profundidade, esboço de borda HED, restauração de imagem (Inpainting), postura humana (Pose, análoga ao OpenPose) e segmentação semântica (Seg).

Isso significa que os usuários podem usar diferentes sinais de controle para guiar precisamente o modelo DiT a gerar imagens que correspondam a estruturas, formas e layouts específicos. Por exemplo, usando o controle Canny, os usuários podem especificar o contorno dos objetos a serem gerados; usando o controle de postura, podem gerar imagens com ações específicas de personagens. Essa capacidade de controle refinado expande significativamente os cenários de aplicação dos modelos DiT.

Impressionante Conversão de Estilo Ghibli

Além do controle de estrutura básico, o EasyControl também demonstra uma poderosa capacidade de transferência de estilo, especialmente na conversão de estilo Ghibli. De acordo com a equipe de pesquisa, eles usaram apenas 100 imagens reais de rostos asiáticos e imagens correspondentes no estilo Ghibli geradas pelo GPT-4 para treinar um modelo LoRA específico. Surpreendentemente, este modelo consegue converter retratos em um estilo de animação Ghibli clássico, ao mesmo tempo em que preserva bem as características faciais originais. Os usuários podem carregar fotos de retratos e usar prompts apropriados para gerar facilmente obras de arte com um forte estilo de desenho animado à mão. A equipe do projeto também fornece uma demonstração Gradio para facilitar a experiência online deste recurso.

A equipe do projeto EasyControl já lançou o código de inferência e os pesos pré-treinados. De acordo com sua lista de tarefas (Todo List), eles lançarão futuramente pesos pré-treinados espaciais, pesos pré-treinados de objetos e código de treinamento, o que aprimorará ainda mais as funcionalidades do EasyControl e fornecerá ferramentas mais completas para pesquisadores e desenvolvedores.

O surgimento do EasyControl, sem dúvida, injetou uma poderosa capacidade de controle em modelos de difusão baseados em Transformer, compensando efetivamente as deficiências dos modelos DiT em termos de controle condicional. Seu suporte a vários modos de controle e sua impressionante capacidade de conversão de estilo Ghibli sugerem um amplo potencial de aplicação na área de geração de conteúdo de IA. Devido à sua eficiência, flexibilidade e facilidade de uso, o EasyControl tem o potencial de se tornar um componente importante do ecossistema de modelos DiT.

Link do projeto: https://top.aibase.com/tool/easycontrol