Le rapport technique sur Stable Diffusion 3 (SD3) détaille l'architecture MMDiT (Multimodal Diffusion Transformer) utilisée par SD3, améliorant les performances grâce à l'utilisation de deux ensembles de poids distincts pour les représentations d'images et de texte. Le rapport révèle également l'introduction par SD3 de la technique de flux de repondération et présente une étude d'échelle pour envisager des améliorations de performances futures. De plus, le rapport mentionne les problèmes et les suggestions concernant l'encodeur de texte. Globalement, les innovations techniques et les performances de SD3 sont impressionnantes.
Rapport technique sur Stable Diffusion 3 : révélation des détails de l'architecture similaire à celle de Sora

量子位
53
© Tous droits réservés AIbase基地 2024, cliquez pour voir la source -https://www.aibase.com/fr/news/6376