Apple a lâché une bombe sur Hugging Face en rendant publique une démonstration de son modèle 4M, présenté l'année dernière. Ce modèle est capable de traiter et de générer du contenu multi-modal, incluant du texte, des images et des scènes 3D. Un seul modèle peut décomposer toutes les informations d'une image, y compris les cartes de profondeur et les dessins au trait. AIbase a testé le modèle avec une image ancienne qu'il avait générée, et les résultats sont impressionnants : l'image a été rapidement décomposée en informations détaillées.

QQ截图20240705100442.jpg

Il suffit de télécharger une photo pour obtenir facilement toutes ses informations, comme les contours principaux, la palette de couleurs dominante et les dimensions de l'image.

Pour Apple, cela représente un tournant audacieux en matière de confidentialité dans la recherche et développement. Non seulement l'entreprise a démontré ses compétences en IA sur la plateforme open source Hugging Face, mais elle a également tendu la main aux développeurs, espérant construire un écosystème autour de 4M. L'architecture multimodale de 4M laisse présager l'arrivée d'applications IA plus cohérentes et polyvalentes au sein de l'écosystème Apple, comme un Siri capable de gérer des requêtes complexes de manière plus intelligente, ou un Final Cut Pro capable de monter des vidéos automatiquement selon des instructions vocales.

Cependant, le lancement de 4M pose également des défis en termes de pratique des données et d'éthique de l'IA. Apple s'est toujours présenté comme le gardien de la vie privée de ses utilisateurs, mais face à un modèle d'IA aussi gourmand en données, sa position pourrait être mise à l'épreuve. Apple devra soigneusement trouver un équilibre, en veillant à ce que la confiance des utilisateurs ne soit pas compromise tout en faisant progresser la technologie.

Découvrons brièvement les principes techniques de 4M. Le point fort de 4M réside dans sa méthode d'entraînement par « modélisation masquée multimodale à grande échelle ». Cette méthode permet de traiter simultanément plusieurs modalités visuelles, que ce soient des informations imagées, sémantiques ou géométriques, en les convertissant en jetons unifiés, assurant ainsi une interconnexion fluide entre les modalités.

Pendant l'entraînement, 4M utilise une méthode ingénieuse : une partie des marqueurs est sélectionnée aléatoirement comme entrée, l'autre partie comme cible. Cette méthode permet d'améliorer l'extensibilité de l'objectif d'entraînement. Cela signifie que, qu'il s'agisse d'images ou de texte, pour 4M, tout n'est qu'une série de marqueurs numériques. Cette conception améliore considérablement la polyvalence du modèle.

Les données et la méthode d'entraînement de 4M méritent également d'être mentionnées. Il utilise CC12M, l'un des plus grands ensembles de données open source au monde. Bien que cet ensemble de données soit riche, les informations d'annotation ne sont pas complètes. Pour résoudre ce problème, les chercheurs ont utilisé une méthode d'étiquetage pseudo-supervisé faiblement supervisée, utilisant des techniques telles que CLIP et MaskRCNN pour effectuer des prédictions complètes sur l'ensemble de données, puis convertir les résultats des prédictions en jetons, jetant ainsi les bases de la compatibilité multimodale de 4M.

Après de nombreux tests et expérimentations, 4M a prouvé sa capacité à exécuter directement des tâches multimodales, sans nécessiter de pré-entraînement ou d'ajustements importants pour des tâches spécifiques. C'est comme donner à l'IA un couteau suisse multimodale, lui permettant de faire face à divers défis avec souplesse.

Adresse de démonstration : https://huggingface.co/spaces/EPFL-VILAB/4M