El 6 de marzo de 2025, el Instituto de Investigación de Inteligencia Artificial de Beijing (Beijing Zhiyuan Artificial Intelligence Research Institute) anunció la publicación de código abierto del modelo de vectores multimodales BGE-VL. Este logro marca un nuevo avance en el campo de la búsqueda multimodal. El modelo BGE-VL ha obtenido los mejores resultados en tareas de búsqueda multimodal, como la búsqueda de imágenes y texto y la búsqueda de imágenes combinadas, mejorando significativamente el rendimiento de la búsqueda multimodal.

El desarrollo de BGE-VL se basa en el conjunto de datos sintéticos a gran escala MegaPairs. Este conjunto de datos se genera mediante la combinación de modelos de representación multimodal, modelos multimodales grandes y modelos de lenguaje grandes, extrayendo eficientemente datos de tripletas multimodales de una gran cantidad de corpus de texto e imágenes. Este método no solo tiene una excelente escalabilidad, capaz de generar datos diversos y de alta calidad a un costo extremadamente bajo de forma continua, sino que también mejora considerablemente la calidad de los datos. En comparación con los datos etiquetados manualmente tradicionales, MegaPairs solo necesita 1/70 de la cantidad de datos para lograr un efecto de entrenamiento superior.

En cuanto a la implementación técnica, la construcción de MegaPairs se divide en dos pasos clave: primero, se utilizan varios modelos de similitud para extraer pares de imágenes diversas del conjunto de datos de imágenes; segundo, se utilizan modelos multimodales grandes y modelos de lenguaje grandes de código abierto para sintetizar instrucciones de búsqueda de dominio abierto. Mediante este método, MegaPairs puede generar de forma escalable conjuntos de datos de instrucciones de búsqueda multimodales a gran escala, de alta calidad y diversos sin intervención humana. La versión publicada incluye 26 millones de muestras, proporcionando un rico soporte de datos para el entrenamiento de modelos de búsqueda multimodales.

微信截图_20250306144622.png

Basándose en el conjunto de datos MegaPairs, el equipo BGE de Zhiyuan entrenó 3 modelos de búsqueda multimodales de diferentes tamaños, incluyendo BGE-VL-Base, BGE-VL-Large y BGE-VL-MLLM. Estos modelos han demostrado un rendimiento superior a los métodos anteriores en múltiples tareas. En las 36 tareas de evaluación de incrustaciones multimodales del Massive Multimodal Embedding Benchmark (MMEB), BGE-VL logró el mejor rendimiento tanto en rendimiento de muestra cero como en rendimiento después del ajuste fino supervisado, demostrando su buena capacidad de generalización de tareas.

En la tarea de búsqueda de imágenes combinadas, BGE-VL ha superado el estándar actual en el conjunto de evaluación CIRCO, superando significativamente las líneas de base de comparación como la serie MagicLens de Google y MM-Embed de Nvidia. BGE-VL-MLLM ha mejorado en 8.1 puntos porcentuales con respecto al modelo SOTA anterior, mientras que el modelo BGE-VL-Base ha superado a otros buscadores multimodales basados en grandes modelos con menos de 1/50 de la cantidad de parámetros.

Además, el estudio muestra que el conjunto de datos MegaPairs tiene una buena escalabilidad y eficiencia. Con el aumento del tamaño de los datos, el modelo BGE-VL muestra una tendencia de crecimiento de rendimiento consistente. En comparación con el modelo SOTA Google MagicLens entrenado con datos de código cerrado de 37M, MegaPairs solo necesita 1/70 del tamaño de los datos (0.5M) para lograr una ventaja de rendimiento significativa.

Página del proyecto:

https://github.com/VectorSpaceLab/MegaPairs

Dirección del modelo:

https://huggingface.co/BAAI/BGE-VL-MLLM-S1