Llama-3.2-11B-Visionは、Metaが公開したマルチモーダル大規模言語モデル(LLM)であり、画像とテキスト処理機能を統合することで、視覚認識、画像推論、画像記述、画像に関する一般的な質問への回答のパフォーマンス向上を目指しています。このモデルは、一般的な業界ベンチマークにおいて、多くのオープンソースおよびクローズドソースのマルチモーダルモデルを上回る性能を示しています。