O Instituto de Pesquisa de Inteligência Artificial de Pequim (BAAI) anunciou recentemente o lançamento do OmniGen, um novo modelo de geração de imagens multifuncional, marcando um avanço significativo no campo da geração de imagens. O modelo OmniGen é conhecido por sua unidade, simplicidade e capacidade de transferência de conhecimento entre tarefas, podendo lidar com diversas tarefas de geração de imagens em um único framework, incluindo geração de imagem a partir de texto, edição de imagens, geração orientada por tema e geração condicionada por visão.

微信截图_20241029103628.png

A principal vantagem do OmniGen reside em sua arquitetura simplificada e operação amigável. Os usuários podem realizar tarefas complexas de geração de imagens com instruções simples, sem a necessidade de plug-ins adicionais ou etapas de processamento complexas. Este aprendizado em formato unificado permite que o OmniGen transfira conhecimento de forma eficiente entre diferentes tarefas, lidando com tarefas e domínios desconhecidos e exibindo funcionalidades inovadoras.

As capacidades do modelo OmniGen não se limitam ao descrito acima; ele também inclui recursos básicos de processamento de imagens, como redução de ruído e extração de bordas. Os pesos e o código do modelo foram abertos, permitindo que os usuários explorem mais as capacidades do OmniGen e o ajuste fino conforme necessário. O Instituto de Pesquisa de Pequim construiu um conjunto de dados de geração de imagens unificado, de grande escala e diversificado, X2I, contendo aproximadamente 100 milhões de imagens, que será disponibilizado em código aberto no futuro para impulsionar o desenvolvimento do campo da geração de imagens universais.

Links relacionados:

Artigo: https://arxiv.org/pdf/2409.11340

Código: https://github.com/VectorSpaceLab/OmniGen

Demonstração: https://huggingface.co/spaces/Shitao/OmniGen