A Stability AI lançou recentemente seu mais novo modelo de geração de imagens a partir de texto de aprendizado profundo — Stable Diffusion 3.5. Esta versão inclui três modelos de código aberto aprimorados, projetados para atender às necessidades de diferentes usuários, incluindo pesquisadores, clientes corporativos e entusiastas.

image.png

Dentre eles, o Stable Diffusion 3.5 Large é o modelo mais poderoso de toda a série, com impressionantes 8,1 bilhões de parâmetros. Este modelo se destaca pela sua excelente qualidade de imagem e alta capacidade de resposta a prompts, tornando-se a escolha ideal para usuários profissionais, capaz de gerar imagens de alta qualidade com resolução de até 1 megapixel.

Além disso, o Stable Diffusion 3.5 Large Turbo é uma versão simplificada do Stable Diffusion 3.5 Large. Ele gera imagens de alta qualidade, mas com uma velocidade significativamente aprimorada, concluindo a geração de imagens em apenas 4 etapas, o que o torna muito mais eficiente que a versão anterior e ideal para usuários que precisam de criação rápida.

Outro novo modelo é o Stable Diffusion 3.5 Medium, com 2,5 bilhões de parâmetros. Este modelo utiliza a arquitetura e métodos de treinamento MMDiT-X aprimorados, sendo projetado para ser "plug-and-play", funcionando perfeitamente mesmo em hardware de consumo. Ele oferece um bom equilíbrio entre qualidade de geração de imagem e facilidade de personalização, podendo gerar imagens de 0,25 a 2 megapixels.

Este lançamento surge após o Stable Diffusion 3 Medium, lançado em junho, não ter atingido as expectativas, levando a Stability AI a lançar uma solução mais transformadora. A empresa afirma que espera reconquistar a competitividade do mercado com esta atualização, para enfrentar o desafio de plataformas como DALL-E da OpenAI e Midjourney.

Uma inovação tecnológica importante nos novos modelos é a introdução da técnica de normalização consulta-chave (Query-Key Normalization). Esta inovação aumenta a personalização e a capacidade de resposta do modelo a prompts, permitindo que os usuários obtenham resultados mais consistentes com prompts específicos, além de interpretações de imagem mais ricas ao usar prompts mais amplos.

A série de modelos Stable Diffusion 3.5 será lançada sob a licença comunitária da Stability AI, permitindo o uso gratuito para fins não comerciais. Entidades com receita anual inferior a US$ 1 milhão também podem usar os modelos gratuitamente para fins comerciais; usuários com receita superior a esse valor precisarão solicitar uma licença corporativa.

Todos os modelos e os pesos necessários para a auto-hospedagem estarão disponíveis na Hugging Face e na API da Stability AI. Além disso, espera-se que o recurso ControlNets, que oferece opções avançadas de personalização de imagens, seja lançado nos próximos dias.

Acesso oficial:

https://stability.ai/stable-image

Links para os três modelos no Hugging Face:

https://huggingface.co/stabilityai/stable-diffusion-3.5-large

https://huggingface.co/stabilityai/stable-diffusion-3.5-large-turbo

https://huggingface.co/stabilityai/stable-diffusion-3.5-medium

Destaques:

🌟 O novo Stable Diffusion 3.5 oferece três versões de modelos, adaptando-se às diferentes necessidades dos usuários.  

⚡ O Stable Diffusion 3.5 Large Turbo oferece uma velocidade de geração de imagens mais rápida, ideal para criação rápida.  

📈 Os novos modelos introduzem a técnica de normalização consulta-chave, melhorando a personalização e a capacidade de resposta.