PaliGemma es un modelo de lenguaje visual avanzado lanzado por Google. Combina el codificador de imágenes SigLIP y el decodificador de texto Gemma-2B, lo que le permite comprender imágenes y texto, e interpretar la interacción entre ambos mediante entrenamiento conjunto. Este modelo está diseñado para tareas específicas, como descripción de imágenes, preguntas y respuestas visuales, y segmentación, convirtiéndose en una herramienta importante para la investigación y el desarrollo.