Le 6 mars 2025, l'Institut de recherche sur l'intelligence artificielle de Beijing (Beijing Zhiyuan Artificial Intelligence Research Institute) a annoncé la publication en open source de BGE-VL, un modèle vectoriel multi-modal. Cette avancée marque une percée majeure dans le domaine de la recherche multi-modale.
Le modèle BGE-VL a obtenu les meilleurs résultats dans plusieurs tâches de recherche multi-modale, notamment la recherche d'images et de texte et la recherche d'images combinées, améliorant ainsi considérablement les performances de ce type de recherche.
Le développement de BGE-VL repose sur l'ensemble de données synthétiques à grande échelle MegaPairs. Cet ensemble de données exploite efficacement des données multi-modales en triplets à partir d'une vaste bibliothèque d'images et de textes, en combinant un modèle de représentation multi-modale, un grand modèle multi-modal et un grand modèle linguistique. Cette méthode présente une excellente extensibilité, permettant la génération continue de données diversifiées et de haute qualité à très faible coût, et améliore considérablement la qualité des données. Comparé aux données traditionnellement annotées manuellement, MegaPairs nécessite seulement 1/70 de la quantité de données pour obtenir des résultats d'entraînement supérieurs.
Sur le plan technique, la construction de MegaPairs se déroule en deux étapes clés : premièrement, l'utilisation de plusieurs modèles de similarité pour extraire des paires d'images diversifiées à partir d'un ensemble de données d'images ; deuxièmement, l'utilisation de grands modèles multi-modaux et de grands modèles linguistiques open source pour synthétiser des instructions de recherche en domaine ouvert. Grâce à cette méthode, MegaPairs peut générer de manière évolutive un ensemble de données d'instructions de recherche multi-modales à grande échelle, de haute qualité et diversifiées, sans intervention humaine. La version publiée contient 26 millions d'échantillons, offrant un riche support de données pour l'entraînement des modèles de recherche multi-modales.
Sur la base de l'ensemble de données MegaPairs, l'équipe BGE de Zhiyuan a entraîné trois modèles de recherche multi-modales de tailles différentes : BGE-VL-Base, BGE-VL-Large et BGE-VL-MLLM. Ces modèles ont démontré des performances supérieures aux méthodes précédentes sur plusieurs tâches. Dans les 36 tâches d'évaluation d'intégration multi-modales du Massive Multimodal Embedding Benchmark (MMEB), BGE-VL a obtenu les meilleurs résultats, tant en termes de performances zéro-shot que de performances après réglage fin supervisé, démontrant ainsi une excellente capacité de généralisation des tâches.
Dans la tâche de recherche d'images combinées, BGE-VL a battu les records existants sur l'ensemble de données CIRCO, surpassant largement les lignes de base de comparaison telles que la série MagicLens de Google et MM-Embed de Nvidia. BGE-VL-MLLM a amélioré de 8,1 points de pourcentage par rapport au modèle SOTA précédent, tandis que le modèle BGE-VL-Base a surpassé les autres systèmes de recherche multi-modales basés sur de grands modèles, avec un nombre de paramètres inférieur de près de 50 fois.
De plus, l'étude montre que l'ensemble de données MegaPairs possède une excellente extensibilité et une grande efficacité. Avec l'augmentation de la taille des données, le modèle BGE-VL montre une tendance à l'amélioration constante des performances. Comparé au modèle SOTA Google MagicLens entraîné sur 37 millions de données propriétaires, MegaPairs n'a besoin que de 1/70 de la taille des données (0,5 million) pour obtenir un avantage de performance significatif.
Page du projet :
https://github.com/VectorSpaceLab/MegaPairs
Adresse du modèle :
https://huggingface.co/BAAI/BGE-VL-MLLM-S1