Récemment, des équipes de recherche de plusieurs institutions scientifiques chinoises ont publié un ensemble de données multimodales à très grande échelle nommé Infinity-MM, et ont entraîné un modèle d'IA performant, Aquila-VL-2B, basé sur cet ensemble de données. Cette percée injecte une nouvelle dynamique au développement de l'IA multimodale.

L'ensemble de données Infinity-MM est d'une taille impressionnante, comprenant quatre grandes catégories de données : 10 millions de descriptions d'images, 24,4 millions de données d'instructions visuelles générales, 6 millions de données d'instructions de haute qualité sélectionnées, et 3 millions de données générées par des modèles d'IA tels que GPT-4. L'équipe de recherche a utilisé le modèle d'IA open source RAM++ pour l'analyse d'images et l'extraction d'informations, et a mis en place un système de classification unique à six catégories pour garantir la qualité et la diversité des données générées.

Analyse de données, surveillance des données, internet, big data (2)

Source de l'image : Image générée par IA, fournisseur de services d'autorisation d'images Midjourney

En termes d'architecture du modèle, Aquila-VL-2B est basé sur LLaVA-OneVision, intégrant le modèle linguistique Qwen-2.5 et la technologie de traitement d'images SigLIP. L'équipe de recherche a adopté une méthode d'entraînement progressive en quatre étapes : en commençant par l'apprentissage des associations texte-image de base, puis en passant progressivement aux tâches visuelles générales, au traitement d'instructions spécifiques, et enfin en intégrant des données synthétiques, tout en augmentant progressivement la résolution maximale des images.

Bien qu'il ne comporte que 2 milliards de paramètres, Aquila-VL-2B a obtenu des résultats remarquables dans divers tests de référence. Il a obtenu le meilleur score de 54,9 % au test de compréhension multimodale MMStar, et un score élevé de 59 % au test de capacités mathématiques MathVista, surpassant nettement les systèmes similaires. Dans les tests de compréhension d'images générales, le modèle a obtenu d'excellents résultats de 43 % à HallusionBench et de 75,2 % à MMBench.

L'étude a révélé que l'introduction de données synthétiques a contribué de manière significative à l'amélioration des performances du modèle. Les expériences montrent qu'en l'absence de ces données supplémentaires, les performances du modèle diminuent en moyenne de 2,4 %. À partir de la troisième étape, les performances d'Aquila-VL-2B ont dépassé celles des modèles de référence tels qu'InternVL2-2B et Qwen2VL-2B, notamment lors de la quatrième étape, où l'augmentation de la quantité de données a entraîné une amélioration encore plus marquée des performances.

Il est à noter que l'équipe de recherche a rendu l'ensemble de données et le modèle accessibles à la communauté de recherche, ce qui contribuera grandement au développement des technologies d'IA multimodales. Le modèle a non seulement été entraîné sur des GPU Nvidia A100, mais il est également compatible avec les puces chinoises de conception nationale, démontrant ainsi une grande adaptabilité matérielle.