O SigLIP2 é um codificador visual de linguagem multilíngue desenvolvido pelo Google, com compreensão semântica, localização e recursos densos aprimorados. Ele suporta classificação de imagens de amostra zero, podendo classificar imagens diretamente por meio de descrições de texto, sem treinamento adicional. O modelo apresenta excelente desempenho em cenários multilíngues e é adequado para diversas tarefas de linguagem visual. Seus principais benefícios incluem capacidade eficiente de alinhamento de imagens e linguagem, suporte a várias resoluções e ajuste de resolução dinâmica, além de forte capacidade de generalização entre idiomas. O lançamento do SigLIP2 oferece novas soluções para tarefas visuais multilíngues, sendo especialmente adequado para cenários que exigem implantação rápida e suporte multilíngue.