Récemment, l'équipe de recherche sur l'IA d'Apple a lancé sa nouvelle famille de grands modèles linguistiques multimodaux (MLLM) : MM1.5. Cette série de modèles, capable de combiner plusieurs types de données, tels que du texte et des images, met en lumière les nouvelles capacités de l'IA dans la compréhension de tâches complexes. Des tâches telles que la question-réponse visuelle, la génération d'images et l'interprétation de données multimodales peuvent être mieux résolues grâce à ces modèles.

image.png

L'un des principaux défis des modèles multimodaux réside dans la mise en œuvre d'une interaction efficace entre les différents types de données. Les modèles précédents rencontraient souvent des difficultés pour traiter des images riches en texte ou des tâches visuelles granulaires. C'est pourquoi l'équipe de recherche d'Apple a introduit dans les modèles MM1.5 une méthode innovante de centralisation des données, utilisant des données OCR haute résolution et des descriptions d'images synthétiques pour renforcer les capacités de compréhension du modèle.

image.png

Cette méthode a non seulement permis à MM1.5 de surpasser les modèles précédents dans les tâches de compréhension et de localisation visuelles, mais a également donné naissance à deux modèles spécialisés : MM1.5-Vidéo et MM1.5-UI, respectivement dédiés à la compréhension vidéo et à l'analyse d'interfaces mobiles.

L'entraînement des modèles MM1.5 se déroule en trois phases principales.

La première phase est un pré-entraînement à grande échelle, utilisant 2 milliards de paires image-texte, 600 millions de documents image-texte entrelacés et 2 000 milliards de jetons textuels uniquement.

La deuxième phase consiste en un pré-entraînement continu, améliorant les performances sur les tâches d'images riches en texte grâce à 45 millions de données OCR de haute qualité et 7 millions de descriptions synthétiques.

Enfin, lors de la phase d'ajustement fin supervisé, le modèle est optimisé à l'aide de données soigneusement sélectionnées (image unique, plusieurs images et texte uniquement) pour améliorer sa capacité à réaliser des références visuelles précises et des inférences multi-images.

Après une série d'évaluations, les modèles MM1.5 ont démontré d'excellents résultats dans plusieurs tests de référence, notamment une amélioration de 1,4 point par rapport aux modèles précédents dans la compréhension d'images riches en texte. De plus, même MM1.5-Vidéo, spécialisé dans la compréhension vidéo, a atteint un niveau de performance de pointe dans les tâches correspondantes grâce à ses puissantes capacités multimodales.

La famille de modèles MM1.5 établit non seulement une nouvelle référence pour les grands modèles linguistiques multimodaux, mais démontre également son potentiel dans diverses applications, des tâches générales de compréhension image-texte à l'analyse vidéo et d'interfaces utilisateur.

Points clés :

🌟 **Variantes du modèle** : modèles denses et modèles MoE avec des paramètres allant de 1 milliard à 300 milliards, garantissant l'évolutivité et un déploiement flexible.

📊 **Données d'entraînement** : utilisation de 2 milliards de paires image-texte, 600 millions de documents image-texte entrelacés et 2 000 milliards de jetons textuels uniquement.

🚀 **Amélioration des performances** : amélioration de 1,4 point par rapport aux modèles précédents sur les tests de référence axés sur la compréhension d'images riches en texte.