PaLI-3: Um Modelo de Linguagem e Visão de Pequeno Porte

O Google lançou o PaLI-3, um modelo de linguagem e visão de pequeno porte que alcançou desempenho de ponta (SOTA). Utilizando um método de pré-treinamento contrastivo, o modelo explorou profundamente o potencial dos modelos de visão-texto (VIT), atingindo o nível SOTA em recuperação multimodal multilíngue.

O PaLI-3 integra a compreensão da linguagem natural e o reconhecimento de imagens, tornando-se uma força importante na inovação da IA. O método de pré-treinamento contrastivo baseado em SigLIP abriu uma nova era para a recuperação multimodal multilíngue.

Embora ainda não esteja totalmente de código aberto, o modelo SigLIP multilíngue e em inglês está disponível, oferecendo aos pesquisadores a oportunidade de experimentação.