Em 4 de março de 2025, a Beijing Zhipu Huazhang Technology Co., Ltd. anunciou o lançamento do CogView4, o primeiro modelo de geração de imagens a partir de texto de código aberto que suporta a geração de caracteres chineses. Este modelo ficou em primeiro lugar na pontuação geral do benchmark DPG-Bench, tornando-se o SOTA (State of the Art) entre os modelos de geração de imagens de código aberto. Ele também segue a licença Apache2.0, sendo o primeiro modelo de geração de imagens a adotar esta licença.
O CogView4 possui fortes capacidades de alinhamento semântico complexo e de seguimento de instruções, suportando entrada em chinês e inglês de comprimento arbitrário e gerando imagens em qualquer resolução. Ele não apenas gera imagens de alta qualidade, mas também integra caracteres chineses naturalmente na imagem, atendendo às necessidades criativas de publicidade, vídeos curtos, etc. Tecnicamente, o CogView4 utiliza o GLM-4encoder com capacidade bilíngue, alcançando a capacidade de entrada de prompts bilíngues através do treinamento de imagens e texto bilíngues (chinês e inglês).
O modelo também suporta a entrada de prompts de qualquer comprimento e pode gerar imagens em qualquer resolução, aumentando significativamente a liberdade criativa e a eficiência do treinamento. O CogView4 utiliza a codificação de posição rotacional bidimensional (2D RoPE) para modelar informações de posição da imagem e, por meio da interpolação da codificação de posição, suporta a geração de imagens em diferentes resoluções. Além disso, o modelo utiliza o esquema Flow-matching para modelar a geração de difusão, combinando o planejamento de ruído dinâmico linear parametrizado para atender às necessidades de relação sinal-ruído de imagens com diferentes resoluções.
Em termos de design de arquitetura, o CogView4 mantém a arquitetura Share-param DiT da geração anterior e projeta camadas LayerNorm adaptáveis independentes para os modos de texto e imagem, a fim de alcançar uma adaptação eficiente entre os modos. O modelo emprega uma estratégia de treinamento em várias etapas, incluindo treinamento de resolução básica, treinamento de resolução generalizada, ajuste fino de dados de alta qualidade e treinamento de alinhamento de preferência humana, garantindo que as imagens geradas sejam esteticamente agradáveis e atendam às preferências humanas.
O CogView4 também supera a limitação tradicional do comprimento fixo de tokens, permitindo um limite superior de tokens mais alto e reduzindo significativamente a redundância de tokens de texto durante o treinamento. Quando o comprimento médio da legenda de treinamento está entre 200 e 300 tokens, em comparação com o esquema tradicional de 512 tokens fixos, o CogView4 reduz a redundância de tokens em cerca de 50% e alcança uma melhoria de eficiência de 5% a 30% na fase de treinamento progressivo do modelo.
Além disso, o CogView4 suporta a licença Apache2.0 e, posteriormente, adicionará suporte para o ecossistema, incluindo ControlNet e ComfyUI. Um pacote completo de ferramentas de ajuste fino também será lançado em breve.
Endereço do repositório de código aberto:
https://github.com/THUDM/CogView4
Repositório do modelo:
https://huggingface.co/THUDM/CogView4-6B
https://modelscope.cn/models/ZhipuAI/CogView4-6B