Apple a récemment publié une mise à jour majeure pour son modèle d'intelligence artificielle multimodale MM1, le faisant passer à la version MM1.5. Cette mise à niveau ne se limite pas à un simple changement de numéro de version ; elle représente une amélioration globale des capacités, conférant au modèle des performances accrues dans divers domaines.
L'amélioration principale de MM1.5 réside dans sa méthode innovante de traitement des données. Le modèle utilise une méthode d'entraînement centrée sur les données, sélectionnant et optimisant méticuleusement l'ensemble de données d'entraînement. Plus précisément, MM1.5 utilise un mélange de données OCR haute résolution, de descriptions d'images synthétiques et de données d'ajustement fin des instructions visuelles optimisées. L'intégration de ces données a permis une amélioration significative de la reconnaissance de texte, de la compréhension d'images et de l'exécution d'instructions visuelles.
En termes d'échelle du modèle, MM1.5 comprend plusieurs versions allant de 1 à 30 milliards de paramètres, incluant des variantes denses et des variantes mixtes d'experts (MoE). Il est important de noter que même les modèles de plus petite taille, avec 1 et 3 milliards de paramètres, atteignent des niveaux de performance impressionnants grâce à une conception minutieuse des données et des stratégies d'entraînement.
Les améliorations des capacités de MM1.5 se manifestent principalement dans les domaines suivants : compréhension d'images riches en texte, référence et localisation visuelle, raisonnement multi-images, compréhension vidéo et compréhension d'interfaces utilisateur mobiles. Ces capacités permettent à MM1.5 d'être appliqué à un éventail plus large de scénarios, tels que l'identification des interprètes et des instruments à partir de photos de concerts, la compréhension des données de graphiques et la réponse aux questions connexes, ou encore la localisation d'objets spécifiques dans des scènes complexes.
Pour évaluer les performances de MM1.5, les chercheurs l'ont comparé à d'autres modèles multimodaux de pointe. Les résultats montrent que MM1.5-1B excelle parmi les modèles de 1 milliard de paramètres, surpassant nettement ses homologues. MM1.5-3B surpasse MiniCPM-V2.0 et se situe au même niveau qu'InternVL2 et Phi-3-Vision. De plus, l'étude a révélé que les performances augmentent considérablement avec l'échelle, tant pour les modèles denses que pour les modèles MoE.
Le succès de MM1.5 témoigne non seulement de la puissance de R&D d'Apple dans le domaine de l'intelligence artificielle, mais il éclaire également la voie future du développement des modèles multimodaux. L'optimisation des méthodes de traitement des données et de l'architecture des modèles permet même aux modèles de plus petite taille d'atteindre des performances élevées, ce qui est d'une importance capitale pour le déploiement de modèles d'IA performants sur des appareils aux ressources limitées.
Adresse de l'article : https://arxiv.org/pdf/2409.20566