Investigadores de Apple y la Escuela Politécnica Federal de Lausana (EPFL) en Suiza han lanzado conjuntamente un modelo de visión multimodal a gran escala de código abierto llamado 4M-21. A diferencia de otros modelos optimizados para tareas o tipos de datos específicos, el 4M-21 ofrece una versatilidad y flexibilidad excepcionales. A pesar de tener solo 3 mil millones de parámetros, puede realizar docenas de funciones, incluyendo clasificación de imágenes, detección de objetos, segmentación semántica, segmentación de instancias, estimación de profundidad y estimación de normales de superficie.

La tecnología central del modelo es la conversión de "tokens discretos", que transforma datos de diversas modalidades en secuencias de tokens con un formato unificado. Ya sean datos de imágenes, mapas de características de redes neuronales, vectores, datos estructurados o datos representados en forma de texto, todo se convierte en el mismo formato comprensible para el modelo. Esta conversión no solo simplifica el entrenamiento del modelo, sino que también sienta las bases para el aprendizaje y procesamiento multimodales.

image.png

Acceso al producto: https://github.com/apple/ml-4m/

Durante el entrenamiento, el 4M-21 utiliza el enmascaramiento (masking) para el aprendizaje multimodal. Enmascara aleatoriamente algunos tokens en la secuencia de entrada y luego predice las partes enmascaradas basándose en los tokens restantes. Este método obliga al modelo a aprender la estructura estadística y las relaciones subyacentes de los datos de entrada, capturando así la información común y la interacción entre diferentes modalidades. El enmascaramiento no solo mejora la capacidad de generalización del modelo, sino que también aumenta la precisión de las tareas generativas.

Los investigadores realizaron una evaluación exhaustiva del 4M-21 en tareas como clasificación de imágenes, detección de objetos, segmentación semántica, segmentación de instancias, estimación de profundidad, estimación de normales de superficie y estimación de postura corporal 3D. Los resultados muestran que la capacidad de procesamiento multimodal del 4M-21 es comparable a la de los modelos más avanzados, mostrando un excelente rendimiento en todas las tareas.

Puntos clave:

- Apple y la EPFL de Suiza han lanzado conjuntamente un modelo de visión multimodal a gran escala de código abierto llamado 4M-21, que ofrece una gran versatilidad y flexibilidad.

- El 4M-21 puede realizar docenas de funciones, incluyendo clasificación de imágenes, detección de objetos, segmentación semántica, segmentación de instancias, estimación de profundidad y estimación de normales de superficie.

- La tecnología clave del 4M-21 es la conversión de "tokens discretos", que transforma datos de diversas modalidades en secuencias de tokens con un formato unificado.