Stability AI lança novo modelo gerador de imagens Stable Diffusion 3.5: três versões e aumento significativo de velocidade

AIbase基地

Publicado emNotícias e Informações de IA · 5 minutos de leitura · Nov 7, 2024

858

A Stability AI lançou recentemente seu mais novo modelo de geração de imagens a partir de texto de aprendizado profundo — Stable Diffusion 3.5. Esta versão inclui três modelos de código aberto aprimorados, projetados para atender às necessidades de diferentes usuários, incluindo pesquisadores, clientes corporativos e entusiastas.

Dentre eles, o Stable Diffusion 3.5 Large é o modelo mais poderoso de toda a série, com impressionantes 8,1 bilhões de parâmetros. Este modelo se destaca pela sua excelente qualidade de imagem e alta capacidade de resposta a prompts, tornando-se a escolha ideal para usuários profissionais, capaz de gerar imagens de alta qualidade com resolução de até 1 megapixel.

Além disso, o Stable Diffusion 3.5 Large Turbo é uma versão simplificada do Stable Diffusion 3.5 Large. Ele gera imagens de alta qualidade, mas com uma velocidade significativamente aprimorada, concluindo a geração de imagens em apenas 4 etapas, o que o torna muito mais eficiente que a versão anterior e ideal para usuários que precisam de criação rápida.

Outro novo modelo é o Stable Diffusion 3.5 Medium, com 2,5 bilhões de parâmetros. Este modelo utiliza a arquitetura e métodos de treinamento MMDiT-X aprimorados, sendo projetado para ser "plug-and-play", funcionando perfeitamente mesmo em hardware de consumo. Ele oferece um bom equilíbrio entre qualidade de geração de imagem e facilidade de personalização, podendo gerar imagens de 0,25 a 2 megapixels.

Este lançamento surge após o Stable Diffusion 3 Medium, lançado em junho, não ter atingido as expectativas, levando a Stability AI a lançar uma solução mais transformadora. A empresa afirma que espera reconquistar a competitividade do mercado com esta atualização, para enfrentar o desafio de plataformas como DALL-E da OpenAI e Midjourney.

Uma inovação tecnológica importante nos novos modelos é a introdução da técnica de normalização consulta-chave (Query-Key Normalization). Esta inovação aumenta a personalização e a capacidade de resposta do modelo a prompts, permitindo que os usuários obtenham resultados mais consistentes com prompts específicos, além de interpretações de imagem mais ricas ao usar prompts mais amplos.

A série de modelos Stable Diffusion 3.5 será lançada sob a licença comunitária da Stability AI, permitindo o uso gratuito para fins não comerciais. Entidades com receita anual inferior a US$ 1 milhão também podem usar os modelos gratuitamente para fins comerciais; usuários com receita superior a esse valor precisarão solicitar uma licença corporativa.

Todos os modelos e os pesos necessários para a auto-hospedagem estarão disponíveis na Hugging Face e na API da Stability AI. Além disso, espera-se que o recurso ControlNets, que oferece opções avançadas de personalização de imagens, seja lançado nos próximos dias.

Acesso oficial:

https://stability.ai/stable-image

Links para os três modelos no Hugging Face:

https://huggingface.co/stabilityai/stable-diffusion-3.5-large

https://huggingface.co/stabilityai/stable-diffusion-3.5-large-turbo

https://huggingface.co/stabilityai/stable-diffusion-3.5-medium

Destaques:
🌟 O novo Stable Diffusion 3.5 oferece três versões de modelos, adaptando-se às diferentes necessidades dos usuários.
⚡ O Stable Diffusion 3.5 Large Turbo oferece uma velocidade de geração de imagens mais rápida, ideal para criação rápida.
📈 Os novos modelos introduzem a técnica de normalização consulta-chave, melhorando a personalização e a capacidade de resposta.

80% de precisão! Meta desenvolve interface cérebro-computador não invasiva que permite digitar apenas com o pensamento

A gigante de mídia social Meta anunciou recentemente o desenvolvimento de um novo dispositivo capaz de capturar sinais neurais do cérebro para entrada de texto. Esta conquista, detalhada em duas pesquisas conduzidas por cientistas da Meta, utiliza tecnologia avançada de escaneamento cerebral e modelos de IA de aprendizado profundo para decifrar com sucesso os sinais cerebrais durante a digitação, reconstruindo até mesmo frases completas. Especificamente, a tecnologia se baseia em um scanner chamado Magnetoencefalografia (MEG), que capta os fracos sinais magnéticos emitidos pelo cérebro. Ao contrário de métodos que requerem implantação cirúrgica...

Capacidade de computação esgotada! DeepSeek interrompe recargas de API, e preços de dois modelos são ajustados simultaneamente

A DeepSeek divulgou hoje um importante comunicado, informando que, devido à escassez de recursos de servidor, o serviço de recarga de API será suspenso a partir de hoje. A empresa declarou que o saldo de conta existente dos usuários ainda poderá ser usado, mas novas recargas não serão aceitas temporariamente. Simultaneamente, a DeepSeek também anunciou seu plano de ajuste de preços. O período promocional do modelo DeepSeek-chat terminará em 24h do dia 08 de fevereiro de 2025. Após o término da promoção, este modelo terá um novo padrão de preços: tokens de entrada serão cobrados a R$ 2,00 por milhão, e tokens de saída serão cobrados a...

Cursor, assistente de codificação com IA, arrecada US$ 105 milhões em Série B

Recentemente, a Anysphere, focada no desenvolvimento de compiladores de código IA, anunciou que concluiu com sucesso uma rodada de financiamento Série B de US$ 105 milhões. Esta rodada de financiamento contou com a participação de várias instituições de investimento de primeira linha, incluindo Thrive Capital, Andreessen Horowitz (a16z) e Benchmark, marcando um avanço significativo para o compilador Cursor em termos de inovação tecnológica e expansão de mercado. Desde seu lançamento, o compilador Cursor se destaca por sua singularidade...

Suno lança vídeo de demonstração de áudio do modelo de geração de música V4, com melhorias significativas na qualidade e estilo do som

Recentemente, a empresa Suno lançou amostras de áudio de seu mais recente modelo de geração de música V4. Essas demonstrações de áudio mostram melhorias significativas na qualidade do som, na variedade de tons e na consistência em comparação com versões anteriores. O modelo V4 da Suno foi treinado usando aprendizado profundo em um grande conjunto de dados de música, com o objetivo de gerar obras musicais mais naturais e ricas. Em comparação com versões anteriores, o modelo V4 apresenta um desempenho superior na síntese de áudio, capaz de produzir músicas mais expressivas e aumentar a expressão emocional da música. Ao ouvir as amostras, os ouvintes podem notar uma melhoria significativa...