SigLIP2 est un encodeur visuel linguistique multilingue développé par Google, offrant une compréhension sémantique, une localisation et des caractéristiques denses améliorées. Il prend en charge la classification d'images à échantillon nul, permettant de classifier des images directement à partir de descriptions textuelles, sans entraînement supplémentaire. Ce modèle excelle dans les contextes multilingues et convient à diverses tâches visuelles linguistiques. Ses principaux avantages incluent une capacité efficace d'alignement image-langue, la prise en charge de plusieurs résolutions et un ajustement dynamique de la résolution, ainsi qu'une puissante capacité de généralisation interlinguistique. Le lancement de SigLIP2 offre de nouvelles solutions pour les tâches visuelles multilingues, particulièrement adaptées aux scénarios nécessitant un déploiement rapide et une prise en charge multilingue.