智源研究院最近发布了三款新的向量模型,这些模型在向量检索任务中表现出色,并刷新了多个评测基准的最佳水平。这三款模型分别是:

  1. BGE-EN-ICL:一个英文向量模型,通过引入任务相关的查询-文档示例作为少量示例,增强了模型的语义表达能力。

  2. BGE-Multilingual-Gemma2:一个多语言向量模型,表现出色,尤其是在中英文能力提升方面。

  3. BGE-Reranker-v2.5-Gemma2-Lightweight:一个多语言重排序模型,通过优化设计,支持逐层提前输出和token压缩,节省了计算资源。

这些模型基于大语言模型进行训练,具备卓越的领域适应能力和广泛的泛化性能。它们还采用了情境学习能力和蒸馏技术,提升了模型的整体性能和检索任务中的能力。BGE-Reranker-v2.5-Gemma2-Lightweight模型特别注重轻量化设计,使其在保持卓越性能的同时更加高效。

在实验结果中,这些模型在MTEB、BEIR、AIR-Bench等多个评测基准中表现出色。BGE-Multilingual-Gemma2在多语言能力方面表现突出,尤其是在中英文能力提升方面。BGE-EN-ICL在few-shot表现上尤为突出。BGE-Reranker-v2.5-Gemma2-Lightweight在重排任务中也达到了更好的结果,并在节省计算资源的情况下保证了优越的效果。

模型链接

(1) BGE-EN-ICL: 

https://huggingface.co/BAAI/bge-en-icl

(2) BGE-Multilingual-Gemma2: 

https://huggingface.co/BAAI/bge-multilingual-gemma2

(3) BGE-Reranker-v2.5-Gemma2-Lightweight: 

https://huggingface.co/BAAI/bge-reranker-v2.5-gemma2-lightweight