谷歌发布了名为PaLI-3的小体量视觉语言模型,取得SOTA水平性能。采用对比预训练方法,深入研究了视觉-文本(VIT)模型的潜力,达到多语言模态检索的SOTA水平。PaLI-3将自然语言理解和图像识别融合,成为AI创新的重要力量。基于SigLIP的对比预训练方法开辟了多语言跨模态检索的新时代。尽管尚未完全开源,但提供多语言和英文SigLIP模型,为研究人员提供尝试的机会。