DiffusionRL
Aprendizaje por refuerzo a gran escala para modelos de difusión
Producto ComúnProductividadAprendizaje profundoGeneración de imágenes
Los modelos de difusión texto-a-imagen son un tipo de modelos generativos profundos que muestran una excelente capacidad de generación de imágenes. Sin embargo, estos modelos son susceptibles a sesgos implícitos derivados de los pares de entrenamiento texto-imagen a escala web, y pueden no modelar con precisión los aspectos de la imagen que nos interesan. Esto puede llevar a muestras subóptimas, sesgo del modelo e imágenes que no se ajustan a la ética y preferencias humanas. Este artículo presenta un algoritmo eficiente y escalable que utiliza el aprendizaje por refuerzo (RL) para mejorar los modelos de difusión, abarcando diversas funciones de recompensa, como las preferencias humanas, la composición y la equidad, que abarcan millones de imágenes. Demostramos cómo nuestro método supera significativamente a los métodos existentes, haciendo que los modelos de difusión se alineen con las preferencias humanas. Además, demostramos cómo esto mejora significativamente el modelo Stable Diffusion (SD) preentrenado, generando muestras que son preferidas por humanos en un 80,3%, al tiempo que mejora la composición y la diversidad de las muestras generadas.
DiffusionRL Situación del tráfico más reciente
Total de visitas mensuales
20415616
Tasa de rebote
44.33%
Páginas promedio por visita
3.1
Duración promedio de la visita
00:04:06