Des chercheurs d'Apple et de l'École polytechnique fédérale de Lausanne (EPFL) ont collaboré pour développer un modèle unique multi-modalité arbitraire à arbitraire, capable de s'entraîner sur des dizaines de modalités hautement diversifiées et d'être entraîné conjointement sur des ensembles de données multi-modales à grande échelle et des corpus textuels. Ce modèle, nommé 4M-21, a été entraîné sur 21 modalités différentes, réalisant au moins trois fois plus de tâches que les modèles existants sans perte de performance.
L'étude a utilisé le schéma de pré-entraînement 4M. En augmentant l'échelle du modèle et des ensembles de données, en augmentant le nombre et les types de modalités impliquées dans l'entraînement du modèle, et en effectuant un entraînement conjoint sur plusieurs ensembles de données, les performances et l'adaptabilité du modèle ont été améliorées. Les chercheurs ont utilisé différentes méthodes de tokenisation pour discrétiser les modalités aux caractéristiques variées, telles que les plongements d'images globales, les poses corporelles et les instances sémantiques. En termes d'architecture, l'étude a adopté une architecture encodeur-décodeur 4M basée sur le Transformer, avec l'ajout de plongements modaux supplémentaires pour s'adapter aux nouvelles modalités.
Ce modèle peut non seulement exécuter directement une série de tâches visuelles courantes, telles que l'estimation de la normale de surface et de la profondeur DIODE, la segmentation sémantique et l'instance COCO, l'estimation de la pose corporelle 3D 3DPW, etc., mais il peut également générer des modalités d'entraînement arbitraires, prendre en charge plusieurs méthodes pour effectuer une génération fine et multi-modale, et récupérer des images RVB ou d'autres modalités en utilisant d'autres modalités comme requête. De plus, des expériences de transfert multi-modal ont été menées sur NYUv2, Hypersim Semantic Segmentation et ARKitScenes.
Ses principales caractéristiques sont :
Modalité arbitraire à arbitraire : Passage de 7 à 21 modalités différentes par rapport au meilleur modèle arbitraire à arbitraire existant, permettant la recherche inter-modalités, la génération contrôlée et des performances immédiates robustes.
Support de la diversité : Ajout de la prise en charge de données plus structurées, telles que les poses corporelles, les instances SAM, les métadonnées, etc.
Tokenisation : Étude de la tokenisation discrète des différentes modalités à l'aide de méthodes spécifiques à la modalité, telles que les plongements d'images globales, les poses corporelles et les instances sémantiques.
Extension : Extension de la taille du modèle à 3 milliards de paramètres et de l'ensemble de données à 0,5 milliard d'échantillons.
Entraînement conjoint : Entraînement conjoint simultané sur le plan visuel et linguistique.
Adresse de l'article : https://arxiv.org/pdf/2406.09406
Points clés :
- Des chercheurs d'Apple et de l'EPFL ont développé un modèle unique multi-modalité arbitraire à arbitraire, entraînable sur 21 modalités différentes.
- Ce modèle peut exécuter directement une série de tâches visuelles courantes, générer des modalités d'entraînement arbitraires et prendre en charge plusieurs méthodes pour effectuer une génération fine et multi-modale.
- Des expériences de transfert multi-modal ont été menées sur NYUv2, Hypersim Semantic Segmentation et ARKitScenes.