Investigadores han desarrollado recientemente una nueva técnica llamada REPA, diseñada para acelerar el entrenamiento de modelos de generación de imágenes de IA. REPA, que significa REPresentation Alignment (Alineación de Representaciones), mejora la velocidad de entrenamiento y la calidad de la salida integrando representaciones visuales de alta calidad de modelos como DINOv2.

Los modelos de difusión tradicionales suelen crear imágenes ruidosas que luego se refinan gradualmente hasta obtener imágenes nítidas. REPA añade un paso que compara las representaciones generadas durante este proceso de eliminación de ruido con las representaciones de DINOv2. Luego, proyecta el estado oculto del modelo de difusión sobre las representaciones de DINOv2.

QQ20241016-142502.png

Los investigadores afirman que REPA no solo mejora la eficiencia del entrenamiento, sino también la calidad de las imágenes generadas. Las pruebas realizadas con diversas arquitecturas de modelos de difusión muestran mejoras significativas: 1. Reducción del tiempo de entrenamiento hasta 17,5 veces; 2. Sin pérdida de calidad en las imágenes de salida; 3. Mejor rendimiento en los indicadores estándar de calidad de imagen.

Por ejemplo, el modelo SiT-XL con REPA logró los mismos resultados que un modelo tradicional con 7 millones de pasos de entrenamiento, utilizando solo 400.000 pasos. Los investigadores consideran esto un paso importante hacia sistemas de generación de imágenes de IA más potentes y eficientes.

La tecnología REPA ofrece una nueva esperanza para la velocidad de entrenamiento y la calidad de salida de los modelos de generación de imágenes de IA. Con el desarrollo y la aplicación continuos de esta tecnología, podemos esperar ver más innovaciones y avances.