A Stability AI mais uma vez ultrapassa barreiras tecnológicas, lançando o novo modelo Stable Diffusion 3.5 Medium. Esta ferramenta de pintura com IA para o público em geral não apenas é totalmente gratuita e de código aberto para uso comercial, mas também alcança um equilíbrio perfeito entre alto desempenho e acessibilidade.
Este modelo, que utiliza a arquitetura de transformador de difusão multimodal (MMDiT-X), com um design simplificado de 2,5 bilhões de parâmetros, resolve habilmente o problema de barreiras de hardware para usuários comuns. Com apenas 9,9 GB de VRAM, ele pode ser executado suavemente na maioria das placas de vídeo de consumo, realmente realizando a visão de "acesso para todos".
Em termos de inovação tecnológica, o modelo integra três codificadores de texto pré-treinados e introduz a técnica de normalização QK para melhorar a estabilidade do treinamento. Vale destacar o design de módulo de atenção dupla nas primeiras 12 camadas de transformação, que melhora significativamente a qualidade da imagem, o layout e a compreensão de prompts complexos.
O processo de treinamento do modelo combina dados sintéticos e dados públicos selecionados, utilizando uma estratégia de treinamento híbrida com aumento de resolução gradual, garantindo a diversidade e a qualidade das imagens geradas. Em comparação com modelos médios semelhantes, ele apresenta vantagens significativas em termos de efeito de geração de imagens e velocidade de processamento.
No entanto, os usuários devem observar alguns detalhes durante o uso: prompts muito longos podem causar defeitos nas bordas da imagem; recomenda-se o uso de amostragem de salto de camada para otimizar a integridade estrutural da imagem; e, devido à diferença na distribuição dos dados de treinamento, o mesmo prompt pode produzir resultados criativos diferentes.
O lançamento deste modelo não apenas fornece uma ferramenta de criação de IA conveniente para criadores individuais e startups, mas também demonstra a determinação da Stability AI em promover a popularização da tecnologia de IA. Seja para criação artística ou desenvolvimento educacional, ele trará a possibilidade de criação de IA para um público mais amplo.
Endereço para download do modelo: https://huggingface.co/stabilityai/stable-diffusion-3.5-medium