A equipe de tecnologia da Zhipu lançou hoje uma notícia emocionante: seus modelos de geração de imagens a partir de texto recém-desenvolvidos, CogView3 e sua versão aprimorada CogView3-Plus-3B, foram oficialmente lançados como código aberto e também lançados com sucesso no aplicativo "Zhipu Qingyan". O lançamento desses dois modelos marca uma nova era na criação de arte assistida por IA.
O CogView3, um modelo de texto para imagem baseado em difusão em cascata, possui um processo de geração sofisticado. O modelo primeiro gera uma imagem de baixa resolução de 512x512 pixels, que então é aprimorada para 1024x1024 pixels por meio de um processo de difusão intermediária. Finalmente, ele é iterado novamente para produzir uma imagem de alta definição de 2048x2048 pixels. Esse método de geração em camadas é como se um pintor digital estivesse gradualmente aperfeiçoando sua obra na tela, proporcionando aos usuários uma experiência visual incomparável.
De acordo com avaliações oficiais, o desempenho do CogView3 é surpreendente, superando o SDXL, o modelo de código aberto de ponta atual, em 77%. Mais importante ainda, a velocidade de inferência do CogView3 é apenas um décimo da do SDXL, demonstrando a excelente conquista da equipe Zhipu na otimização do modelo.
O lançamento do CogView3-Plus leva essa tecnologia a um novo nível. Esta versão introduz a estrutura avançada DiT, utiliza o agendamento de ruído de difusão Zero-SNR e inova com um mecanismo de atenção conjunta texto-imagem. Essas melhorias não apenas melhoram o desempenho geral do modelo, mas também reduzem significativamente os custos de treinamento e inferência, alcançando um equilíbrio perfeito entre eficiência e desempenho. O espaço latente VAE de 16 dimensões usado pelo CogView3-Plus abre novas possibilidades para o desenvolvimento futuro da tecnologia de geração de imagens.
Para desenvolvedores e pesquisadores que desejam explorar essa tecnologia de ponta, a equipe de tecnologia Zhipu já disponibilizou os repositórios de código-fonte do CogView3 e CogView3-Plus-3B. Essa iniciativa certamente impulsionará o rápido desenvolvimento do campo de geração de imagens de IA, fornecendo uma base tecnológica sólida para mais aplicativos inovadores.
Com o lançamento da série de modelos CogView3, as perspectivas de aplicação da tecnologia de geração de imagens a partir de texto são ainda mais amplas. De criação pessoal a design comercial, de auxílio educacional a indústria do entretenimento, essa tecnologia tem o potencial de trazer mudanças revolucionárias. Podemos prever que, em um futuro próximo, a criação assistida por IA se tornará a norma, permitindo que mais pessoas realizem facilmente suas ideias artísticas.
Endereço do repositório de código aberto:
https://top.aibase.com/tool/cogview3
Repositório de código aberto do Plus: