O PaliGemma é um modelo de linguagem visual avançado lançado pelo Google. Combinando o codificador de imagens SigLIP e o decodificador de texto Gemma-2B, ele consegue compreender imagens e texto, realizando uma compreensão interativa de ambos por meio de treinamento conjunto. Projetado para tarefas específicas a jusante, como descrição de imagens, perguntas e respostas visuais e segmentação, é uma ferramenta importante para pesquisa e desenvolvimento.