Investigadores de Apple y la Escuela Politécnica Federal de Lausana (EPFL) en Suiza han desarrollado conjuntamente un único modelo modal de arbitrario a arbitrario, capaz de entrenarse en decenas de modalidades altamente diversas y de entrenarse de forma colaborativa en conjuntos de datos multimodales a gran escala y corpus de texto. Este modelo, denominado 4M-21, se entrenó en 21 modalidades diferentes, superando en al menos tres veces la cantidad de tareas realizadas por modelos existentes sin pérdida de rendimiento.

image.png

El estudio empleó un esquema de preentrenamiento 4M, que mejora el rendimiento y la adaptabilidad del modelo al ampliar el tamaño del modelo y del conjunto de datos, aumentar el tipo y la cantidad de modalidades involucradas en el entrenamiento del modelo y realizar un entrenamiento conjunto en múltiples conjuntos de datos. Los investigadores utilizaron diferentes métodos de tokenización para discretizar modalidades con características diversas, como incrustaciones de imágenes globales, postura corporal e instancias semánticas. En cuanto a la selección de la arquitectura, el estudio adoptó una arquitectura codificador-decodificador 4M basada en Transformer, añadiendo incrustaciones modales adicionales para adaptarse a nuevas modalidades.

image.png

El modelo no solo puede ejecutar directamente una serie de tareas visuales comunes, como la estimación de la profundidad y la normal de la superficie DIODE, la segmentación semántica e instancia COCO, y la estimación de la postura corporal 3DPW3D, sino que también puede generar cualquier modalidad entrenada, admite varios métodos para realizar la generación de grano fino y multi-modal, y puede recuperar imágenes RGB u otras modalidades utilizando otras modalidades como consulta. Además, los investigadores realizaron experimentos de transferencia multimodal en NYUv2, segmentación semántica Hypersim y ARKitScenes.

Sus características importantes incluyen:

Modalidad arbitraria a arbitraria: Se pasa de 7 modalidades en los mejores modelos existentes de arbitrario a arbitrario a 21 modalidades diferentes, logrando la recuperación entre modalidades, la generación controlada y un potente rendimiento directo.

Compatibilidad con la diversidad: Se añade soporte para más datos estructurados, como la postura corporal, instancias SAM, metadatos, etc.

Tokenización: Se investigan métodos de tokenización discreta específicos de la modalidad para diferentes modalidades, como incrustaciones de imágenes globales, postura corporal e instancias semánticas.

Escalabilidad: Se amplía el tamaño del modelo a 3B parámetros y el conjunto de datos a 0.5B muestras.

Entrenamiento colaborativo: Entrenamiento colaborativo simultáneo en visión y lenguaje.

Puntos clave:

- Investigadores de Apple y la EPFL (Suiza) han desarrollado conjuntamente un único modelo modal de arbitrario a arbitrario, que puede entrenarse en 21 modalidades diferentes.

- El modelo puede ejecutar directamente una serie de tareas visuales comunes, y también puede generar cualquier modalidad entrenada, admitiendo varios métodos para realizar la generación de grano fino y multimodal.

- Los investigadores también realizaron experimentos de transferencia multimodal en NYUv2, segmentación semántica Hypersim y ARKitScenes.