O modelo multimodal Janus-Pro, desenvolvido pela empresa chinesa DeepSeek, foi lançado oficialmente, marcando sua entrada no mercado de geração de imagens a partir de texto. Este lançamento representa um grande avanço da DeepSeek na tecnologia de IA multimodal.

Nos testes de referência GenEval e DPG-Bench, o Janus-Pro-7B não apenas superou o DALL-E3 da OpenAI, mas também modelos populares como Stable Diffusion e Emu3-Gen. O Janus-Pro utiliza a licença MIT de código aberto, permitindo seu uso ilimitado em cenários comerciais. A DeepSeek afirma que o Janus-Pro é uma versão aprimorada do modelo JanusFlow, lançado em 13 de novembro de 2024.

DeepSeek lança novo modelo multimodal de alto desempenho, superando a OpenAI

Em comparação com modelos anteriores, o Janus-Pro apresenta uma estratégia de treinamento otimizada, um conjunto de dados de treinamento expandido e um tamanho de modelo maior. Essas melhorias resultaram em avanços significativos na compreensão multimodal e no seguimento de instruções de texto para imagem, além de aumentar a estabilidade da geração de imagens a partir de texto.

DeepSeek lança novo modelo multimodal de alto desempenho, superando a OpenAI

Embora o Janus-Pro atualmente processe imagens com resolução de 384x384, seu desempenho impressiona, considerando seu tamanho de modelo compacto.

Como um modelo multimodal, o Janus-Pro não apenas gera imagens, mas também descreve imagens, identifica pontos turísticos, reconhece texto em imagens e apresenta informações sobre o conhecimento contido nas imagens.

Destaques:

🌟 A DeepSeek lança o modelo multimodal Janus-Pro, entrando no mercado de geração de imagens a partir de texto.

📈 Nos testes de referência, o Janus-Pro-7B superou o DALL-E3 da OpenAI e outros modelos populares.

✅ O Janus-Pro utiliza a licença MIT de código aberto, permitindo seu uso ilimitado em cenários comerciais.