Llama-3.2-11B-Vision ist ein von Meta veröffentlichtes multimodales großes Sprachmodell (LLM), das die Fähigkeiten zur Bild- und Textverarbeitung kombiniert. Es zielt darauf ab, die Leistung bei der Bilderkennung, dem Bildschlussfolgern, der Bildbeschreibung und der Beantwortung allgemeiner Fragen zu Bildern zu verbessern. Das Modell übertrifft in gängigen Branchen-Benchmark-Tests zahlreiche Open-Source- und geschlossene multimodale Modelle.