マルチモーダル人工知能の分野において、北京智源人工智能研究院は複数の大学と協力し、新しいマルチモーダルベクトルモデルBGE-VLを発表しました。これは、マルチモーダル検索技術における大きなブレークスルーを意味します。BGEシリーズのモデルは発表以来高い評価を得ており、BGE-VLの登場により、そのエコシステムはさらに充実しました。このモデルは、画像テキスト検索、複合画像検索など、複数の重要なタスクで優れた性能を発揮しています。
BGE-VLの成功は、その基盤となるMegaPairsデータ合成技術によるものです。この革新的な手法は、既存の大規模な画像テキストデータから、高品質なマルチモーダル3元組データを自動生成することで、データの拡張性と質を大幅に向上させました。MegaPairsは、非常に低いコストで多様なデータセットを生成でき、2600万件以上のサンプルを含み、マルチモーダル検索モデルのトレーニングに豊富な基盤を提供します。この技術により、BGE-VLは複数の主要なマルチモーダル検索ベンチマークでトップクラスの成績を収めました。
マルチモーダル検索の重要性が増している今日、ユーザーの情報取得ニーズはますます多様化しています。従来の検索モデルは、単一の画像テキストペアに依存したトレーニングが多く、複雑な複合入力には効果的に対応できませんでした。しかし、BGE-VLはMegaPairsデータを取り入れることで、この限界を克服し、モデルがマルチモーダルクエリをより包括的に理解し処理できるようになりました。
北京智源人工智能研究院のチームは、複数のタスクのパフォーマンス評価において、BGE-VLモデルがMassive Multimodal Embedding Benchmark(MMEB)におけるゼロショット性能で優れた結果を示していることを発見しました。MegaPairsはMMEBのほとんどのタスクを網羅していませんが、そのタスク汎化能力は非常に高く評価できます。さらに、複合画像検索の評価においても、BGE-VLはGoogleのMagicLensやNVIDIAのMM-Embedなど、多くの有名なモデルを大きく上回る性能を示しました。
今後、北京智源人工智能研究院はMegaPairs技術の更なる深化を計画し、より豊富なマルチモーダル検索シナリオを組み合わせることで、より包括的で効率的なマルチモーダル検索エンジンを構築し、ユーザーにより正確な情報サービスを提供することに取り組んでいます。マルチモーダル技術の発展に伴い、BGE-VLの登場は、関連分野の更なる探求と革新を促進するでしょう。
論文アドレス: https://arxiv.org/abs/2412.14475
プロジェクトホームページ: https://github.com/VectorSpaceLab/MegaPairs