2025年3月6日、北京智源人工智能研究院は、マルチモーダルベクトルモデルBGE-VLのオープンソース化を発表しました。この成果は、マルチモーダル検索分野における新たなブレークスルーを意味します。BGE-VLモデルは、画像テキスト検索、複合画像検索などのマルチモーダル検索タスクにおいて最良の結果を達成し、マルチモーダル検索のパフォーマンスを大幅に向上させました。
BGE-VLの開発は、大規模合成データセットMegaPairsに基づいています。このデータセットは、マルチモーダル表現モデル、マルチモーダル大規模言語モデル、大規模言語モデルを組み合わせることで、膨大な画像テキストデータから効率的にマルチモーダル3項データマイニングを行います。この方法は、優れた拡張性を備え、非常に低いコストで多様で高品質なデータを継続的に生成できるだけでなく、データ品質の大幅な向上も実現します。従来の人工アノテーションデータと比較して、MegaPairsは1/70のデータ量でより優れたトレーニング効果を実現します。
技術的な実現において、MegaPairsの構築は2つの重要なステップに分かれています。まず、様々な類似性モデルを使用して、画像データセットから多様な画像ペアをマイニングします。次に、オープンソースのマルチモーダル大規模言語モデルと大規模言語モデルを使用して、オープンなドメイン検索指示を合成します。この方法により、MegaPairsは人手を介することなく、大規模で高品質かつ多様なマルチモーダル検索指示データセットを拡張的に生成できます。今回リリースされたバージョンには2600万件のサンプルが含まれており、マルチモーダル検索モデルのトレーニングに豊富なデータを提供します。
MegaPairsデータセットに基づいて、智源BGEチームは、BGE-VL-Base、BGE-VL-Large、BGE-VL-MLLMの3つの異なるサイズのマルチモーダル検索モデルをトレーニングしました。これらのモデルは、複数のタスクにおいて従来の方法をはるかに凌駕する優れた性能を示しました。Massive Multimodal Embedding Benchmark(MMEB)の36のマルチモーダル埋め込み評価タスクにおいて、BGE-VLはゼロショット性能と教師ありファインチューニング後の性能の両方で最良の結果を達成し、優れたタスク汎化能力を証明しました。
複合画像検索タスクにおいて、BGE-VLはCIRCO評価セットで既存の基準を更新し、GoogleのMagicLensシリーズやNVIDIAのMM-Embedなどの比較ベースラインを大幅に上回りました。BGE-VL-MLLMは以前のSOTAモデルよりも8.1ポイント向上し、BGE-VL-Baseモデルは1/50未満のパラメータ数で他の大規模モデルベースのマルチモーダル検索器を上回りました。
さらに、研究によると、MegaPairsデータセットは優れた拡張性と効率性を備えています。データ規模の増加に伴い、BGE-VLモデルは一貫して性能向上を示します。37MのクローズドソースデータでトレーニングされたSOTAモデルであるGoogle MagicLensと比較して、MegaPairsは1/70のデータ規模(0.5M)で顕著な性能優位性を実現します。
プロジェクトページ:
https://github.com/VectorSpaceLab/MegaPairs
モデルアドレス: