Em 6 de março de 2025, o Instituto de Inteligência Artificial de Pequim (Beijing Zhiyuan Artificial Intelligence Research Institute) anunciou a disponibilização em código aberto do modelo vetorial multimodal BGE-VL. Essa conquista representa um novo avanço na área de recuperação multimodal. O modelo BGE-VL alcançou os melhores resultados em tarefas de recuperação multimodal, como recuperação de imagem e texto e recuperação de imagens combinadas, melhorando significativamente o desempenho da recuperação multimodal.

O desenvolvimento do BGE-VL baseia-se no conjunto de dados sintético em larga escala MegaPairs. Esse conjunto de dados é criado combinando modelos de representação multimodal, modelos multimodais de grande porte e modelos de linguagem grandes, extraindo dados de tríades multimodais de um vasto corpus de texto e imagem. Esse método não apenas possui excelente escalabilidade, permitindo a geração contínua de dados diversificados e de alta qualidade com custo extremamente baixo, mas também melhora significativamente a qualidade dos dados. Em comparação com os dados rotulados manualmente tradicionais, o MegaPairs requer apenas 1/70 da quantidade de dados para alcançar resultados de treinamento superiores.

Na implementação técnica, a construção do MegaPairs é dividida em duas etapas principais: primeiro, usar vários modelos de similaridade para extrair pares de imagens diversificados do conjunto de dados de imagens; segundo, usar modelos multimodais de grande porte e modelos de linguagem grandes de código aberto para sintetizar instruções de recuperação de domínio aberto. Por meio desse método, o MegaPairs pode gerar de forma escalável conjuntos de dados de instruções de recuperação multimodal em larga escala, de alta qualidade e diversificados, sem intervenção humana. A versão lançada inclui 26 milhões de amostras, fornecendo amplo suporte de dados para o treinamento de modelos de recuperação multimodal.

微信截图_20250306144622.png

Com base no conjunto de dados MegaPairs, a equipe BGE da Zhiyuan treinou três modelos de recuperação multimodal de diferentes tamanhos: BGE-VL-Base, BGE-VL-Large e BGE-VL-MLLM. Esses modelos demonstraram desempenho superior a métodos anteriores em várias tarefas. Em 36 tarefas de avaliação de incorporação multimodal do Massive Multimodal Embedding Benchmark (MMEB), o BGE-VL alcançou o melhor desempenho tanto no desempenho de amostra zero quanto no desempenho após o ajuste fino supervisionado, demonstrando sua excelente capacidade de generalização de tarefas.

Na tarefa de recuperação de imagens combinadas, o BGE-VL estabeleceu um novo padrão no conjunto de avaliação CIRCO, superando significativamente as linhas de base de comparação, como a série MagicLens do Google e o MM-Embed da Nvidia. O BGE-VL-MLLM superou o modelo SOTA anterior em 8,1 pontos percentuais, enquanto o modelo BGE-VL-Base superou outros recuperadores multimodais de modelos grandes com menos de 1/50 da quantidade de parâmetros.

Além disso, o estudo também mostra que o conjunto de dados MegaPairs possui boa escalabilidade e eficiência. Com o aumento da escala de dados, o modelo BGE-VL apresenta uma tendência de crescimento de desempenho consistente. Em comparação com o modelo SOTA Google MagicLens treinado em dados fechados de 37M, o MegaPairs requer apenas 1/70 da escala de dados (0,5M) para alcançar uma vantagem de desempenho significativa.

Página do projeto:

https://github.com/VectorSpaceLab/MegaPairs

Endereço do modelo:

https://huggingface.co/BAAI/BGE-VL-MLLM-S1