A Stability AI lançou recentemente seu mais novo modelo de geração de imagens a partir de texto de aprendizado profundo — Stable Diffusion 3.5. Esta versão inclui três modelos de código aberto aprimorados, projetados para atender às necessidades de diferentes usuários, incluindo pesquisadores, clientes corporativos e entusiastas.
Dentre eles, o Stable Diffusion 3.5 Large é o modelo mais poderoso de toda a série, com impressionantes 8,1 bilhões de parâmetros. Este modelo se destaca pela sua excelente qualidade de imagem e alta capacidade de resposta a prompts, tornando-se a escolha ideal para usuários profissionais, capaz de gerar imagens de alta qualidade com resolução de até 1 megapixel.
Além disso, o Stable Diffusion 3.5 Large Turbo é uma versão simplificada do Stable Diffusion 3.5 Large. Ele gera imagens de alta qualidade, mas com uma velocidade significativamente aprimorada, concluindo a geração de imagens em apenas 4 etapas, o que o torna muito mais eficiente que a versão anterior e ideal para usuários que precisam de criação rápida.
Outro novo modelo é o Stable Diffusion 3.5 Medium, com 2,5 bilhões de parâmetros. Este modelo utiliza a arquitetura e métodos de treinamento MMDiT-X aprimorados, sendo projetado para ser "plug-and-play", funcionando perfeitamente mesmo em hardware de consumo. Ele oferece um bom equilíbrio entre qualidade de geração de imagem e facilidade de personalização, podendo gerar imagens de 0,25 a 2 megapixels.
Este lançamento surge após o Stable Diffusion 3 Medium, lançado em junho, não ter atingido as expectativas, levando a Stability AI a lançar uma solução mais transformadora. A empresa afirma que espera reconquistar a competitividade do mercado com esta atualização, para enfrentar o desafio de plataformas como DALL-E da OpenAI e Midjourney.
Uma inovação tecnológica importante nos novos modelos é a introdução da técnica de normalização consulta-chave (Query-Key Normalization). Esta inovação aumenta a personalização e a capacidade de resposta do modelo a prompts, permitindo que os usuários obtenham resultados mais consistentes com prompts específicos, além de interpretações de imagem mais ricas ao usar prompts mais amplos.
A série de modelos Stable Diffusion 3.5 será lançada sob a licença comunitária da Stability AI, permitindo o uso gratuito para fins não comerciais. Entidades com receita anual inferior a US$ 1 milhão também podem usar os modelos gratuitamente para fins comerciais; usuários com receita superior a esse valor precisarão solicitar uma licença corporativa.
Todos os modelos e os pesos necessários para a auto-hospedagem estarão disponíveis na Hugging Face e na API da Stability AI. Além disso, espera-se que o recurso ControlNets, que oferece opções avançadas de personalização de imagens, seja lançado nos próximos dias.
Acesso oficial:
https://stability.ai/stable-image
Links para os três modelos no Hugging Face:
https://huggingface.co/stabilityai/stable-diffusion-3.5-large
https://huggingface.co/stabilityai/stable-diffusion-3.5-large-turbo
https://huggingface.co/stabilityai/stable-diffusion-3.5-medium
Destaques:
🌟 O novo Stable Diffusion 3.5 oferece três versões de modelos, adaptando-se às diferentes necessidades dos usuários.
⚡ O Stable Diffusion 3.5 Large Turbo oferece uma velocidade de geração de imagens mais rápida, ideal para criação rápida.
📈 Os novos modelos introduzem a técnica de normalização consulta-chave, melhorando a personalização e a capacidade de resposta.