A equipe Seed da ByteDance lançou oficialmente o relatório técnico do modelo de geração de imagens a partir de texto Seedream 3.0. Este modelo apresenta uma melhoria significativa no desempenho, sendo um modelo básico de geração de imagens nativo de alta resolução, que suporta idiomas chinês e inglês. Ele alcançou avanços em vários aspectos, como resolução e precisão da estrutura da imagem gerada, apresentando vantagens significativas em comparação com a versão anterior.

QQ20250416-142610.png

Desempenho do Seedream 3.0 em diferentes dimensões. Os dados de cada dimensão neste gráfico foram normalizados usando o melhor indicador como referência.

Quanto aos destaques de funcionalidades, o Seedream 3.0 pode gerar imagens diretamente em 2K, sem necessidade de pós-processamento para obter imagens de alta resolução, atendendo a diversas necessidades; a velocidade de geração de imagens é extremamente rápida, levando apenas 3 segundos, o que aumenta significativamente a eficiência da criação; a geração de letras pequenas e o efeito de composição de texto foram otimizados, resolvendo problemas do setor e possuindo capacidade de design gráfico comercial; a estética e a estrutura foram ainda mais aprimoradas, a conformidade com as instruções foi fortalecida, e as imagens geradas são mais impactantes.

QQ20250416-142656.png

Em termos de implementação técnica, o Seedream 3.0 inovou em várias dimensões. Na otimização de dados, o conjunto de dados foi expandido por meio da percepção de defeitos de imagem, e foram adotadas estratégias de amostragem de co-ocorrência visual e semântica e um sistema de recuperação de texto e imagem desenvolvido internamente para melhorar a distribuição de dados.

Na fase de pré-treinamento, foi utilizada a codificação de posição rotacional transmodal para fortalecer a capacidade de renderização de texto, e o treinamento misto de multi-resolução foi usado para gerar imagens de 2K diretamente, e uma nova função de perda foi usada para melhorar a eficácia do treinamento. Na fase de RLHF de pós-treinamento, foi projetada uma descrição estética de múltiplos grãos, expandindo a escala do modelo de recompensa e melhorando o desempenho do modelo. Na aceleração de inferência, foram adotadas previsão de ruído consistente e processo de amostragem suave, e a amostragem de etapas de tempo importantes foi usada para acelerar o treinamento de destilação do modelo, alcançando uma geração de imagem de 1K de ponta a ponta em apenas 3 segundos.

Atualmente, o Seedream 3.0 já está totalmente disponível nas plataformas Doubao e Jimeng. Na classificação do Artificial Analysis, uma arena de competição autorizada, ele competiu com muitos modelos de geração de imagens a partir de texto conhecidos, chegando a ocupar o primeiro lugar, especialmente no design de pôsteres e na geração criativa.

No futuro, a equipe Seed planeja aprofundar a pesquisa em design de estrutura mais eficiente, aprimoramento do nível de inteligência do modelo e exploração do fenômeno de dimensionamento de dados e modelos, com o objetivo de impulsionar o desenvolvimento da área de geração visual.

Arxiv:https://arxiv.org/abs/2504.11346

Página de apresentação técnica:https://team.doubao.com/tech/seedream3_0