En el campo de la generación de imágenes, los avances tecnológicos impulsan continuamente el desarrollo de aplicaciones como la realidad virtual. Recientemente, Samsung Research presentó un nuevo método basado en el modelado autorregresivo, diseñado para mejorar la fidelidad y la escalabilidad de la generación de imágenes. A diferencia de los métodos tradicionales que generan toda la escena de una sola vez, este método adopta una estrategia de adición gradual de detalles, haciendo que el proceso de generación de imágenes sea más acorde con los hábitos creativos humanos.
El núcleo de este nuevo método radica en dividir la generación de imágenes en dos niveles: "base" y "detalle". Primero, se genera una imagen base suave, y luego, mediante una iteración, se añaden detalles gradualmente, formando finalmente una imagen coherente de alta calidad. El equipo de investigación destaca que esta estrategia de composición por capas es más eficiente que los métodos tradicionales, especialmente en el procesamiento de imágenes de alta resolución, ofreciendo una mejor escalabilidad sin necesidad de volver a entrenar todo el modelo.
En el proceso de aprendizaje del modelo autorregresivo, el orden de procesamiento de las etiquetas de imagen tiene una influencia significativa en el resultado generado. El equipo de investigación de Samsung, mediante el uso innovador de una técnica de suavizado sensible a los bordes, descompone las imágenes de entrenamiento en diferentes subniveles, logrando así un control incremental de los detalles. Este método es similar al proceso de creación artística humana: los artistas suelen comenzar con un boceto y luego perfeccionan gradualmente las formas y los detalles.
El entrenamiento del modelo consta de tres pasos principales: primero, se descompone cada imagen de entrenamiento en múltiples niveles de factores de detalle básicos; luego, se utilizan codificadores automáticos variacionales vectoriales cuantizados (VQ-VAE) para codificar estos factores, asegurando que se conserven las características clave de la imagen mientras se reduce la dimensionalidad; finalmente, se utiliza una arquitectura de decodificador Transformer para la predicción iterativa de los factores de detalle, logrando así un control y una adición gradual de los detalles de la imagen.
Los resultados experimentales muestran que este método no solo alcanza un nivel de vanguardia en la calidad de generación de imágenes, sino que también reduce eficazmente la complejidad computacional asociada a la salida de alta resolución. Este innovador marco de generación de imágenes autorregresivo ofrece una alternativa sólida a los modelos de difusión y otras tecnologías, mostrando un amplio panorama para el futuro de la generación de imágenes.