SigLIP2 es un codificador visual de lenguaje multilingüe desarrollado por Google, con comprensión semántica, localización y características densas mejoradas. Admite la clasificación de imágenes de cero disparos, pudiendo clasificar imágenes directamente a través de descripciones de texto sin necesidad de entrenamiento adicional. El modelo destaca en entornos multilingües y es aplicable a diversas tareas de visión por lenguaje. Sus principales ventajas incluyen una eficiente capacidad de alineación imagen-lenguaje, soporte para múltiples resoluciones y ajuste de resolución dinámica, así como una potente capacidad de generalización entre idiomas. El lanzamiento de SigLIP2 ofrece nuevas soluciones para tareas de visión multilingüe, especialmente adecuado para escenarios que requieren despliegue rápido y soporte multilingüe.