PaliGemma ist ein von Google entwickeltes, fortschrittliches visuelles Sprachmodell. Es kombiniert den Bildkodierer SigLIP mit dem Textdekodierer Gemma-2B und kann sowohl Bilder als auch Texte verstehen und durch gemeinsames Training ein interaktives Verständnis von Bildern und Texten erreichen. Das Modell ist speziell für bestimmte Downstream-Aufgaben wie Bildbeschreibung, visuelle Fragebeantwortung und Segmentierung konzipiert und stellt ein wichtiges Werkzeug in Forschung und Entwicklung dar.