Llama-3.2-11B-Vision es un modelo de lenguaje grande multimodal (LLM) publicado por Meta que combina la capacidad de procesamiento de imágenes y texto, con el objetivo de mejorar el rendimiento en el reconocimiento visual, el razonamiento de imágenes, la descripción de imágenes y la respuesta a preguntas generales sobre imágenes. El modelo supera a numerosos modelos multimodales de código abierto y cerrados en pruebas comparativas comunes del sector.