L'équipe Seed de ByteDance a officiellement publié le rapport technique du modèle d'image à partir de texte Seedream 3.0. Ce modèle a réalisé des améliorations significatives en termes de performances. Il s'agit d'un modèle de base de génération d'images natif haute résolution, prenant en charge le chinois et l'anglais, qui a fait des percées en termes de résolution et de précision de la structure de l'image générée, présentant des avantages considérables par rapport à la version précédente.
Performances de Seedream 3.0 selon différentes dimensions. Les données de chaque dimension de ce graphique sont normalisées en prenant l'indicateur optimal comme référence.
En termes de fonctionnalités clés, Seedream 3.0 peut générer nativement des images en 2K sans post-traitement, répondant ainsi aux besoins de divers scénarios ; la vitesse de génération d'images est extrêmement rapide, seulement 3 secondes, améliorant considérablement l'efficacité de la création ; la génération de petits caractères et l'effet de mise en page du texte ont été optimisés, résolvant ainsi les problèmes de l'industrie et offrant des capacités de conception graphique commerciale ; l'esthétique et la structure sont encore améliorées, la conformité aux instructions est renforcée, et les images générées sont plus percutantes.
Sur le plan de la mise en œuvre technique, Seedream 3.0 a innové à plusieurs niveaux. En termes d'optimisation des données, un jeu de données enrichi par la détection des défauts d'image a été utilisé, et la distribution des données a été améliorée grâce à une stratégie d'échantillonnage visuel et sémantique coordonnée et à un système de recherche d'images et de texte développé en interne.
Au stade de la pré-formation, l'encodage de position de rotation intermodale a été utilisé pour renforcer la capacité de rendu du texte, et une formation hybride multi-résolution a été utilisée pour générer directement des images 2K. Une nouvelle fonction de perte a également été utilisée pour améliorer l'efficacité de la formation. Au stade de la RLHF post-formation, une description de l'esthétique à plusieurs niveaux a été conçue, l'échelle du modèle de récompense a été étendue et les performances du modèle ont été améliorées. Pour l'accélération de l'inférence, la prédiction du bruit cohérent et le processus d'échantillonnage stable ont été utilisés, et l'échantillonnage des étapes temporelles importantes a été utilisé pour accélérer l'entraînement de la distillation du modèle, permettant une génération d'images en 1K en seulement 3 secondes.
Actuellement, Seedream 3.0 est entièrement déployé sur des plateformes telles que Doubao et Jimeng. Dans l'arène de compétition autoritaire Artificial Analysis, il a concurrencé de nombreux modèles d'image à partir de texte bien connus et s'est classé premier à un moment donné, notamment en matière de conception d'affiches et de génération créative.
À l'avenir, l'équipe Seed prévoit d'approfondir ses recherches dans des domaines tels que la conception de structures plus efficaces, l'amélioration du niveau d'intelligence du modèle et l'exploration des phénomènes de mise à l'échelle des données et des modèles, afin de contribuer au développement du domaine de la génération visuelle.
Arxiv : https://arxiv.org/abs/2504.11346
Page de présentation technique : https://team.doubao.com/tech/seedream3_0