O modelo de geração de imagem a partir de texto de código aberto CogView4, da Zhihu AI, acaba de ser lançado. O CogView4 não apenas possui 600 milhões de parâmetros, mas também oferece suporte total à entrada em chinês e à geração de imagens a partir de texto em chinês, sendo considerado o "primeiro modelo de código aberto capaz de gerar caracteres chineses em imagens".

QQ_1741067026688.png

Um dos principais destaques do CogView4 é o suporte à entrada de prompts bilíngues (chinês e inglês), sendo especialmente eficaz na compreensão e no cumprimento de instruções complexas em chinês, tornando-se uma ferramenta valiosa para criadores de conteúdo em chinês. Como o primeiro modelo de geração de imagem a partir de texto de código aberto capaz de gerar caracteres chineses em imagens, ele preenche uma lacuna significativa no campo de código aberto. Além disso, o modelo suporta a geração de imagens com qualquer largura e altura e pode processar prompts de qualquer comprimento, demonstrando alta flexibilidade.

A capacidade bilíngue do CogView4 é resultado de uma atualização completa de sua arquitetura técnica. Seu codificador de texto foi atualizado para GLM-4, suportando entrada em chinês e inglês, superando a limitação anterior de modelos de código aberto que só suportavam inglês. Segundo informações, o modelo foi treinado usando pares de imagens e textos bilíngues (chinês e inglês) para garantir a qualidade de geração em contextos chineses.

No processamento de texto, o CogView4 abandona o design tradicional de comprimento fixo e adota um esquema de comprimento de texto dinâmico. Quando o texto de descrição médio contém 200 a 300 tokens, em comparação com o esquema tradicional de 512 tokens fixos, a redundância é reduzida em cerca de 50%, e a eficiência de treinamento é aumentada em 5% a 30%. Essa inovação não apenas otimiza os recursos computacionais, mas também permite que o modelo processe prompts de diferentes comprimentos com maior eficiência.

O CogView4 suporta a geração de imagens em qualquer resolução, graças a várias inovações tecnológicas. O modelo utiliza treinamento de resolução mista, combinando codificação de posição rotacional bidimensional e representação de posição interpolada para se adaptar a diferentes requisitos de tamanho. Além disso, com base no modelo de difusão Flow-matching e no planejamento de ruído dinâmico linear parametrizado, a qualidade e a diversidade das imagens geradas são ainda mais aprimoradas.

QQ_1741067051506.png

O processo de treinamento do CogView4 é dividido em várias etapas: treinamento de resolução básica, adaptação de resolução genérica, ajuste fino de dados de alta qualidade e, finalmente, otimização de saída por meio do alinhamento de preferências humanas. Esse processo mantém a arquitetura Share-param DiT, ao mesmo tempo em que introduz camadas de normalização adaptativa independentes para diferentes modalidades, garantindo a estabilidade e a consistência do modelo em várias tarefas.

Projeto: https://github.com/THUDM/CogView4