Des chercheurs d'Apple et de l'École polytechnique fédérale de Lausanne (EPFL) en Suisse ont conjointement publié en open source un modèle visuel multi-modal à grande échelle nommé 4M-21. Contrairement à d'autres modèles optimisés pour des tâches ou des types de données spécifiques, le 4M-21 possède une grande polyvalence et flexibilité. Malgré ses 3 milliards de paramètres seulement, il offre des dizaines de fonctionnalités, telles que la classification d'images, la détection d'objets, la segmentation sémantique, la segmentation d'instances, l'estimation de profondeur, et l'estimation de normales de surface.
La technologie clé du modèle est la conversion de « tokens discrets », qui permet de convertir des données de diverses modalités en séquences de tokens d'un format unifié. Que ce soient des données d'images, des cartes de caractéristiques de réseaux neuronaux, des vecteurs, des données structurées ou des données textuelles, elles peuvent toutes être converties dans le même format compréhensible par le modèle. Cette conversion simplifie non seulement l'entraînement du modèle, mais pose également les bases de l'apprentissage et du traitement multi-modaux.
Accès au produit : https://github.com/apple/ml-4m/
Lors de la phase d'entraînement, le 4M-21 utilise une méthode de masquage pour réaliser l'apprentissage multi-modal. Il masque aléatoirement certains tokens de la séquence d'entrée, puis prédit les parties masquées en se basant sur les tokens restants. Cette méthode oblige le modèle à apprendre la structure statistique et les relations sous-jacentes des données d'entrée, capturant ainsi les points communs et les interactions entre les différentes modalités. Le masquage améliore non seulement les capacités de généralisation du modèle, mais aussi la précision des tâches de génération.
Les chercheurs ont effectué une évaluation complète du 4M-21 sur des tâches telles que la classification d'images, la détection d'objets, la segmentation sémantique, la segmentation d'instances, l'estimation de profondeur, l'estimation de normales de surface et l'estimation de la pose 3D du corps humain. Les résultats montrent que les capacités de traitement multi-modal du 4M-21 sont comparables à celles des modèles les plus avancés actuels, et qu'il excelle dans toutes les tâches.
Points clés :
- Apple et l'EPFL ont conjointement publié en open source un modèle visuel multi-modal à grande échelle nommé 4M-21, qui possède une grande polyvalence et flexibilité.
- Le 4M-21 offre des dizaines de fonctionnalités, telles que la classification d'images, la détection d'objets, la segmentation sémantique, la segmentation d'instances, l'estimation de profondeur et l'estimation de normales de surface.
- La technologie clé du 4M-21 est la conversion de « tokens discrets », qui permet de convertir des données de diverses modalités en séquences de tokens d'un format unifié.