谷歌发布小体量PaLI-3视觉语言模型,实现SOTA性能
站长之家
25
谷歌发布了名为PaLI-3的小体量视觉语言模型,取得SOTA水平性能。采用对比预训练方法,深入研究了视觉-文本(VIT)模型的潜力,达到多语言模态检索的SOTA水平。PaLI-3将自然语言理解和图像识别融合,成为AI创新的重要力量。基于SigLIP的对比预训练方法开辟了多语言跨模态检索的新时代。尽管尚未完全开源,但提供多语言和英文SigLIP模型,为研究人员提供尝试的机会。
© 版权所有 AIbase基地 2024, 点击查看来源出处 - https://www.aibase.com/zh/news/2554