¿Alguna vez han sentido que los modelos de imágenes entrenados con enormes cantidades de datos son terriblemente lentos al generar imágenes de alta calidad? ¡No se preocupen! Luma AI recientemente ha lanzado una técnica de preentrenamiento de modelos de imágenes de código abierto llamada Inductive Moment Matching (IMM), que supuestamente permite a los modelos generar imágenes de alta calidad a una velocidad sin precedentes, ¡como un turbocompresor en un horno de alquimista!

¿Estancamiento algorítmico? Luma AI rompe el "techo"

En los últimos años, la comunidad de IA ha sentido un estancamiento generalizado en el preentrenamiento generativo. A pesar del aumento continuo de la cantidad de datos, la innovación algorítmica se ha estancado. Luma AI cree que esto no se debe a la falta de datos, sino a que los algoritmos no han logrado explotar plenamente el potencial de los datos; es como tener una mina de oro y solo usar una pala para excavar, con una eficiencia terriblemente baja.

Para romper este "techo algorítmico", Luma AI ha puesto su mirada en la expansión eficiente del cálculo en el momento de la inferencia. Creen que, en lugar de "competir" en la capacidad del modelo, es mejor pensar en cómo acelerar la fase de inferencia. ¡Así nació IMM, un "competidor" de velocidad!

QQ_1741763781543.png

IMM: haciendo que la inferencia "salte"

Entonces, ¿qué hace que IMM sea tan especial y permita una aceleración tan sorprendente?

La clave radica en su diseño inverso del algoritmo de preentrenamiento desde la perspectiva de la eficiencia de la inferencia. Los modelos de difusión tradicionales son como artistas que tallan meticulosamente, necesitando ajustes precisos paso a paso; incluso con modelos poderosos, se necesitan muchos pasos para obtener los mejores resultados. IMM es diferente; es como un artista con la habilidad de "teletransportarse". Durante la inferencia, la red no solo considera el paso de tiempo actual, sino también el "paso de tiempo objetivo".

Imagínese que los modelos de difusión tradicionales generan imágenes como si estuvieran buscando a tientas en un laberinto. ¿IMM? Ve directamente la salida del laberinto y puede "saltar" con más flexibilidad, reduciendo drásticamente los pasos necesarios. Este ingenioso diseño hace que cada iteración sea más expresiva y ya no esté limitada a la interpolación lineal.

Más aún, IMM introduce la discrepancia de media máxima (maximum mean discrepancy), una técnica de coincidencia de momentos madura, que es como agregar un sistema de navegación preciso al "salto", asegurando que el modelo se dirija con precisión hacia el objetivo de alta calidad.

¡Diez veces más rápido, con una calidad superior!

La práctica es la única prueba de la verdad. Luma AI ha demostrado la potencia de IMM con una serie de experimentos:

  • En el conjunto de datos ImageNet256x256, IMM logró una puntuación FID de 1.99 con 30 veces menos pasos de muestreo, superando a los modelos de difusión (2.27 FID) y Flow Matching (2.15 FID). ¡Esto es como completar la tarea en un abrir y cerrar de ojos, con una calidad aún mayor!
  • En el conjunto de datos estándar CIFAR-10, IMM logró una puntuación FID de 1.98 con solo 2 pasos de muestreo, alcanzando el mejor nivel en este conjunto de datos. ¡Dos pasos! ¡No se equivocan, es cuestión de un abrir y cerrar de ojos!

Además de su velocidad, IMM también muestra una excelente estabilidad de entrenamiento. En comparación, los modelos de consistencia tienden a ser inestables durante el preentrenamiento y requieren un diseño especial de hiperparámetros. IMM es más "sencillo" y puede entrenarse de forma estable con varios hiperparámetros y arquitecturas de modelos.

Cabe destacar que IMM no depende de la coincidencia de puntuaciones de eliminación de ruido o de las ecuaciones diferenciales estocásticas basadas en puntuaciones en las que se basan los modelos de difusión. Luma AI cree que el verdadero avance no solo radica en la coincidencia de momentos en sí, sino en su perspectiva de priorizar la inferencia. Esta forma de pensar les ha permitido descubrir las limitaciones de los paradigmas de preentrenamiento existentes y diseñar algoritmos innovadores que superan estas limitaciones.

Luma AI tiene mucha confianza en el futuro de IMM y cree que esto es solo el comienzo, presagiando un nuevo paradigma hacia modelos básicos multimodales que superan los límites existentes. Esperan liberar por completo el potencial de la inteligencia creativa.

Repositorio de GitHub: https://github.com/lumalabs/imm