Geração de imagens por texto está em alta! O modelo de geração de imagens de código aberto CogView3 da ZhiPu é 10 vezes mais rápido que o SDXL!

AIbase基地

Publicado emNotícias e Informações de IA · 5 minutos de leitura · Sep 30, 2024

928

Recentemente, a Zhihu AI lançou ao público sua mais recente obra-prima, o CogView3 e sua versão atualizada, o CogView-3Plus-3B, injetando nova vitalidade no campo da geração de imagens a partir de texto.

A chegada do CogView3 é, sem dúvida, um marco importante. Como o primeiro modelo a implementar a difusão de retransmissão no campo da geração de imagem a partir de texto, ele emprega um método de difusão em cascata único. Essa abordagem inovadora gera primeiro imagens de baixa resolução e, em seguida, usa uma técnica de super-resolução baseada em retransmissão para concluir a saída final. Isso não apenas melhora significativamente a qualidade das imagens geradas, mas também reduz significativamente os custos de treinamento e inferência.

O mais notável é o desempenho do CogView3. De acordo com avaliações humanas, o CogView3 superou o modelo de texto para imagem de código aberto mais avançado atualmente, o SDXL, com uma taxa de vitória de 77,0%. Mais impressionante ainda, ele alcançou esse feito em aproximadamente metade do tempo de inferência do SDXL. Ao usar a versão simplificada do CogView3, é possível manter um nível de desempenho comparável, usando apenas um décimo do tempo de inferência do SDXL. Esse avanço inovador certamente abre novas possibilidades para a geração de imagens de alta eficiência e alta qualidade.

Simultaneamente, a Zhihu AI também lançou o CogView-3Plus-3B, um modelo de imagem baseado na estrutura DiT (Diffusion Transformers). Embora os resultados de teste específicos ainda não tenham sido divulgados, a indústria tem grandes expectativas em relação ao seu potencial. O CogView-3Plus-3B foi otimizado ainda mais com base no CogView3, introduzindo tecnologias avançadas como o agendamento de ruído de difusão Zero-SNR e o mecanismo de atenção conjunta texto-imagem. Essas melhorias não apenas reduzem os custos de treinamento e inferência, mas também mantêm a poderosa capacidade de geração de imagens.

Vale mencionar que o CogView-3Plus-3B suporta uma ampla gama de resoluções de imagem, de 512x512 a 2048x2048, o que aumenta significativamente a flexibilidade de seus cenários de aplicação. Seja para uso diário ou criação profissional, há opções de resolução adequadas.

Para ajudar os usuários a utilizar melhor esses modelos, a Zhihu AI também fornece dicas e ferramentas úteis. Eles sugerem que os usuários otimizem as instruções por meio de modelos de linguagem grandes (LLMs), o que pode melhorar significativamente a qualidade das imagens geradas. Ao mesmo tempo, a Zhihu AI também fornece scripts de exemplo, reduzindo significativamente a barreira de entrada para os usuários.

Endereço do projeto: https://github.com/THUDM/CogView3

CogView4: Modelo de texto para imagem de código aberto da Zhipu AI, com suporte para prompts em chinês e inglês

O mais recente modelo de texto para imagem de código aberto da Zhipu AI, o CogView4, foi lançado oficialmente. Com 600 milhões de parâmetros, o CogView4 oferece suporte total à entrada em chinês e à geração de imagens a partir de texto em chinês, sendo considerado o primeiro modelo de código aberto capaz de gerar caracteres chineses em imagens. O principal destaque do CogView4 é o suporte a prompts bilíngues (chinês e inglês), sendo especialmente eficiente na compreensão e no seguimento de instruções complexas em chinês, tornando-se uma ferramenta valiosa para criadores de conteúdo em chinês. Como o primeiro modelo de texto para imagem de código aberto capaz de gerar caracteres chineses em imagens, ele preenche uma lacuna significativa no ecossistema de código aberto.

CogView4: Primeiro modelo de texto para imagem de código aberto a gerar caracteres chineses lançado pela ZhiPu

A Beijing ZhiPu HuaZhang Technology Co., Ltd. anunciou o lançamento do CogView4, o primeiro modelo de texto para imagem de código aberto a suportar a geração de caracteres chineses. Este modelo alcançou a pontuação mais alta no teste de referência DPG-Bench, tornando-se o melhor modelo de texto para imagem de código aberto (SOTA - State of the Art). Ele também é o primeiro modelo de geração de imagens a seguir a licença Apache2.0.

Alibaba Cloud Tongyi Wanxiang lança novo modelo de edição de imagem ACE para edição de imagens com um clique

Nesta semana, a equipe Alibaba Cloud Tongyi Wanxiang lançou o novo modelo de edição de imagem ACE, projetado para fornecer aos usuários um serviço de geração e edição de imagens mais conveniente e inteligente. Os usuários podem gerar ou modificar imagens simplesmente usando comandos coloquiais, simplificando enormemente a complexidade da edição de imagens. Essa ferramenta suporta uma ampla gama de cenários de aplicação, incluindo retratos estilizados, criação de storyboards e design de interiores. O modelo ACE não apenas suporta a geração de imagens a partir de texto (texto para imagem), mas também possui poderosas funções de edição de imagem. Os usuários podem realizar edições visuais controláveis e modificação de elementos por meio de diálogo.

IA revoluciona a criação! Três novos modelos de texto para imagem da Stability AI chegam ao Amazon Bedrock!

A Stability AI, em parceria com a Amazon Web Services (AWS), introduziu três novos modelos de geração de imagem a partir de texto ao serviço Amazon Bedrock, para melhorar o posicionamento comercial e a competitividade no mercado. Esses três modelos — Stable Image Ultra, Stable Diffusion 3 Large e Stable Image Core — atendem a diferentes necessidades, oferecendo desde a geração de imagens de alta qualidade até a produção rápida de imagens em larga escala.