Text-zu-Bild-Diffusionsmodelle sind eine Klasse von Deep-Generative-Modellen, die bemerkenswerte Fähigkeiten in der Bildgenerierung zeigen. Diese Modelle sind jedoch anfällig für implizite Verzerrungen aus webskaligen Text-Bild-Trainingsdaten und können die für uns relevanten Aspekte eines Bildes möglicherweise nicht genau modellieren. Dies kann zu suboptimalen Stichproben, Modellverzerrungen und Bildern führen, die nicht mit menschlichen ethischen Standards und Präferenzen übereinstimmen. Dieser Artikel beschreibt einen effizienten und skalierbaren Algorithmus, der Reinforcement Learning (RL) nutzt, um Diffusionsmodelle zu verbessern. Er umfasst diverse Belohnungsfunktionen wie menschliche Präferenzen, Kohärenz und Fairness und deckt Millionen von Bildern ab. Wir zeigen, wie unsere Methode bestehende Verfahren deutlich übertrifft und Diffusionsmodelle mit menschlichen Präferenzen in Einklang bringt. Darüber hinaus zeigen wir, wie dies die vortrainierten Stable Diffusion (SD) Modelle signifikant verbessert: Die generierten Stichproben werden zu 80,3 % von Menschen bevorzugt, wobei gleichzeitig die Kohärenz und Diversität der generierten Stichproben verbessert wird.