SigLIP2 ist ein von Google entwickelter multilingualer visuell-sprachlicher Kodierer mit verbessertem semantischen Verständnis, Lokalisierung und dichten Merkmalen. Er unterstützt die Nullschuss-Bildklassifizierung, d. h. die direkte Klassifizierung von Bildern anhand von Textbeschreibungen ohne zusätzliches Training. Das Modell zeichnet sich durch seine hervorragende Leistung in mehrsprachigen Szenarien aus und eignet sich für diverse visuell-sprachliche Aufgaben. Zu seinen Hauptvorteilen gehören die effiziente Ausrichtung von Sprache und Bild, die Unterstützung verschiedener Auflösungen und dynamische Anpassung der Auflösung sowie eine starke sprachübergreifende Generalisierungsfähigkeit. SigLIP2 bietet neue Lösungen für mehrsprachige visuelle Aufgaben und eignet sich besonders für Szenarien, die eine schnelle Bereitstellung und mehrsprachige Unterstützung erfordern.