Recentemente, a Zhihu AI lançou ao público sua mais recente obra-prima, o CogView3 e sua versão atualizada, o CogView-3Plus-3B, injetando nova vitalidade no campo da geração de imagens a partir de texto.

A chegada do CogView3 é, sem dúvida, um marco importante. Como o primeiro modelo a implementar a difusão de retransmissão no campo da geração de imagem a partir de texto, ele emprega um método de difusão em cascata único. Essa abordagem inovadora gera primeiro imagens de baixa resolução e, em seguida, usa uma técnica de super-resolução baseada em retransmissão para concluir a saída final. Isso não apenas melhora significativamente a qualidade das imagens geradas, mas também reduz significativamente os custos de treinamento e inferência.

image.png

O mais notável é o desempenho do CogView3. De acordo com avaliações humanas, o CogView3 superou o modelo de texto para imagem de código aberto mais avançado atualmente, o SDXL, com uma taxa de vitória de 77,0%. Mais impressionante ainda, ele alcançou esse feito em aproximadamente metade do tempo de inferência do SDXL. Ao usar a versão simplificada do CogView3, é possível manter um nível de desempenho comparável, usando apenas um décimo do tempo de inferência do SDXL. Esse avanço inovador certamente abre novas possibilidades para a geração de imagens de alta eficiência e alta qualidade.

Simultaneamente, a Zhihu AI também lançou o CogView-3Plus-3B, um modelo de imagem baseado na estrutura DiT (Diffusion Transformers). Embora os resultados de teste específicos ainda não tenham sido divulgados, a indústria tem grandes expectativas em relação ao seu potencial. O CogView-3Plus-3B foi otimizado ainda mais com base no CogView3, introduzindo tecnologias avançadas como o agendamento de ruído de difusão Zero-SNR e o mecanismo de atenção conjunta texto-imagem. Essas melhorias não apenas reduzem os custos de treinamento e inferência, mas também mantêm a poderosa capacidade de geração de imagens.

Vale mencionar que o CogView-3Plus-3B suporta uma ampla gama de resoluções de imagem, de 512x512 a 2048x2048, o que aumenta significativamente a flexibilidade de seus cenários de aplicação. Seja para uso diário ou criação profissional, há opções de resolução adequadas.

Para ajudar os usuários a utilizar melhor esses modelos, a Zhihu AI também fornece dicas e ferramentas úteis. Eles sugerem que os usuários otimizem as instruções por meio de modelos de linguagem grandes (LLMs), o que pode melhorar significativamente a qualidade das imagens geradas. Ao mesmo tempo, a Zhihu AI também fornece scripts de exemplo, reduzindo significativamente a barreira de entrada para os usuários.

Endereço do projeto: https://github.com/THUDM/CogView3