Modelo Stable Diffusion 3 Lançado: Detalhes da Arquitetura Revelados, Ajuda na Replicação do Sora?

机器之心

Publicado emNotícias e Informações de IA · 2 minutos de leitura · Mar 6, 2024

O modelo Stable Diffusion 3 foi lançado, adotando a mesma arquitetura DiT do Sora, com melhorias significativas na qualidade. Os autores afirmam que o Stable Diffusion 3 supera outros sistemas de geração de imagem a partir de texto, com quantidades de parâmetros variando de 800M a 8B. A arquitetura do SD3 é baseada em uma colaboração entre membros centrais da equipe de desenvolvimento do Sora e um professor assistente da Universidade de Nova York, utilizando a arquitetura MMDiT, que supera UViT e DiT. O Stable Diffusion 3 emprega a fórmula Rectified Flow (RF), e uma variante de RF repesada, proposta pelos autores, demonstra melhoria contínua de desempenho. Estudos extensivos foram conduzidos no modelo, utilizando um codificador de texto flexível para aprimoramentos, e comparações de desempenho com outros modelos foram realizadas.

Runway lança o Frames, um novo gerador de imagens com IA para resultados visuais cinematográficos

A Runway, empresa de tecnologia de mídia com IA, anunciou o lançamento de seu mais recente modelo de geração de imagem a partir de texto: o Frames. Conhecida por seus modelos de vídeo com IA, a Runway busca expandir sua influência na criação de imagens. O lançamento do Frames recebeu elogios generalizados dos usuários, especialmente por sua capacidade de gerar efeitos visuais cinematográficos. O modelo foi apresentado pela primeira vez em novembro de 2024 e, nas últimas semanas, foi disponibilizado em acesso antecipado para os usuários do programa de criadores da Runway.

Avanço Significativo! Nova técnica de conversão de estilo baseada em texto melhora drasticamente a qualidade da geração de imagens

A conversão de estilo baseada em texto é uma tarefa importante no campo da síntese de imagens, com o objetivo de fundir o estilo de uma imagem de referência com o conteúdo descrito em uma legenda de texto. Recentemente, os modelos de geração de imagem a partir de texto alcançaram progressos significativos, permitindo uma conversão de estilo mais refinada, mantendo ao mesmo tempo a alta fidelidade do conteúdo. Essa tecnologia possui um enorme valor prático em áreas como pintura digital, publicidade e design de jogos. No entanto, as técnicas de conversão de estilo existentes ainda apresentam algumas deficiências, sendo os principais desafios: sobreajuste de estilo: os modelos existentes tendem a replicar todos os elementos da imagem de referência, levando...

ByteDance anunciará avanços em novas tecnologias de modelos de IA, incluindo geração de imagem a partir de texto e novos vídeos semelhantes ao Sora, nesta semana

A equipe do ByteDance planeja anunciar pela primeira vez em larga escala os avanços em suas mais recentes tecnologias de modelos de inteligência artificial em 19 de julho (esta sexta-feira). O anúncio incluirá novos modelos de IA, como geração de imagem a partir de texto e novos vídeos semelhantes ao Sora, com foco em inovações em vídeos longos e alta dinâmica, esperando competir diretamente com o modelo de vídeo de geração de texto Sora da OpenAI.

Notícias e Informações de IA

Modelo Stable Diffusion 3 Lançado: Detalhes da Arquitetura Revelados, Ajuda na Replicação do Sora?

机器之心

Notícias de IA Relacionadas Recomendadas

Sensacional! MiniMax lança novo modelo de geração de imagens, Image-01, com custo apenas 1/10!

Runway lança o Frames, um novo gerador de imagens com IA para resultados visuais cinematográficos

Avanço Significativo! Nova técnica de conversão de estilo baseada em texto melhora drasticamente a qualidade da geração de imagens

ByteDance anunciará avanços em novas tecnologias de modelos de IA, incluindo geração de imagem a partir de texto e novos vídeos semelhantes ao Sora, nesta semana