DiffusionRL
Apprentissage par renforcement à grande échelle pour les modèles de diffusion
Produit OrdinaireProductivitéApprentissage profondGénération d'images
Les modèles de diffusion texte-image sont une catégorie de modèles génératifs profonds qui affichent des capacités remarquables de génération d'images. Cependant, ces modèles sont sensibles aux biais implicites provenant des paires d'entraînement texte-image à l'échelle du web, et peuvent ne pas modéliser fidèlement les aspects des images qui nous intéressent. Cela peut conduire à des échantillons sous-optimaux, des biais de modèle et des images non conformes à l'éthique et aux préférences humaines. Cet article présente un algorithme efficace et évolutif qui utilise l'apprentissage par renforcement (RL) pour améliorer les modèles de diffusion, en couvrant diverses fonctions de récompense telles que les préférences humaines, la composition et l'équité, sur des millions d'images. Nous montrons comment notre approche surpasse largement les méthodes existantes, alignant les modèles de diffusion sur les préférences humaines. Nous démontrons en outre comment cela améliore considérablement le modèle Stable Diffusion (SD) pré-entraîné, les échantillons générés étant préférés par les humains à 80,3 %, tout en améliorant la composition et la diversité des échantillons générés.
DiffusionRL Dernière situation du trafic
Nombre total de visites mensuelles
20415616
Taux de rebond
44.33%
Nombre moyen de pages par visite
3.1
Durée moyenne de la visite
00:04:06