Llama-3.2-11B-Vision é um modelo de linguagem grande multimodal (LLMs) lançado pela Meta, que combina as capacidades de processamento de imagem e texto, com o objetivo de melhorar o desempenho no reconhecimento visual, raciocínio de imagem, descrição de imagem e resposta a perguntas gerais sobre imagens. O modelo superou muitos modelos multimodais de código aberto e fechados em benchmarks comuns do setor.