Google DeepMind y el MIT (Instituto Tecnológico de Massachusetts) han publicado recientemente un importante avance en investigación. El equipo de investigación ha desarrollado un nuevo modelo autorregresivo llamado "Fluid" que ha logrado un progreso revolucionario en la generación de imágenes a partir de texto. El modelo, al escalarse a 10.500 millones de parámetros, muestra un rendimiento excepcional.
Esta investigación desafía la sabiduría convencional de la industria. Anteriormente, aunque los modelos autorregresivos dominaban el procesamiento del lenguaje, se consideraban inferiores a los modelos de difusión como Stable Diffusion y Google Imagen 3 en la generación de imágenes. Los investigadores, mediante la innovadora introducción de dos factores de diseño clave, mejoraron significativamente el rendimiento y la escalabilidad de los modelos autorregresivos: la adopción de tokens continuos en lugar de tokens discretos, y la introducción de un orden de generación aleatorio en lugar de un orden fijo.
En el procesamiento de información de imágenes, la ventaja de los tokens continuos es evidente. Los tokens discretos tradicionales codifican las regiones de la imagen como códigos dentro de un vocabulario limitado, lo que inevitablemente conduce a una pérdida de información; incluso los modelos grandes tienen dificultades para generar con precisión detalles como ojos simétricos. Los tokens continuos conservan información más precisa, mejorando significativamente la calidad de la reconstrucción de la imagen.
El equipo de investigación también innovó en el orden de generación de imágenes. Los modelos autorregresivos tradicionales suelen generar imágenes siguiendo un orden fijo de izquierda a derecha y de arriba a abajo. Los investigadores probaron un método de orden aleatorio, permitiendo que el modelo prediga múltiples píxeles en cualquier posición en cada paso. Este método destaca en tareas que requieren una buena comprensión de la estructura general de la imagen, mostrando una ventaja significativa en la prueba de referencia GenEval, que mide la correspondencia entre el texto y la imagen generada.
El rendimiento real del modelo Fluid confirma el valor de la investigación. Al escalarse a 10.500 millones de parámetros, Fluid supera a los modelos existentes en varias pruebas de referencia importantes. Cabe destacar que un modelo Fluid pequeño, con solo 369 millones de parámetros, alcanzó la puntuación FID (7.23) en el conjunto de datos MS-COCO, igualando al modelo Parti de 20.000 millones de parámetros.
Este resultado de investigación indica que los modelos autorregresivos como Fluid podrían convertirse en una alternativa viable a los modelos de difusión. A diferencia de los modelos de difusión, que requieren múltiples pasadas hacia adelante y hacia atrás, Fluid solo necesita una sola pasada para generar una imagen. Esta ventaja de eficiencia será aún más evidente a medida que el modelo se amplíe.