Loro
Marco de aprendizaje por refuerzo multiobjetivo para la generación de imágenes a partir de texto
Producto ComúnImagenAprendizaje por refuerzoGeneración de texto
Loro es un marco de aprendizaje por refuerzo multiobjetivo, diseñado específicamente para la generación de imágenes a partir de texto (T2I). A través de la selección de Pareto óptima por lotes, identifica automáticamente el mejor equilibrio entre diferentes recompensas durante el proceso de optimización RL en la generación T2I. Además, Loro emplea un método de optimización conjunta del modelo T2I y la red de expansión de prompts, lo que fomenta prompts de texto con conciencia de la calidad de la generación, mejorando aún más la calidad de la imagen final. Para contrarrestar el posible olvido catastrófico del prompt original del usuario debido a la expansión del prompt, introducimos una guía de centrado del prompt original durante la inferencia, asegurando que las imágenes generadas sean fieles a la entrada del usuario. Numerosos experimentos e investigaciones con usuarios demuestran que Loro supera a varios métodos de referencia en diversos estándares de calidad, incluyendo estética, preferencia humana, emoción de la imagen y alineación texto-imagen.
Loro Situación del tráfico más reciente
Total de visitas mensuales
29742941
Tasa de rebote
44.20%
Páginas promedio por visita
5.9
Duración promedio de la visita
00:04:44