llava-llama-3-8b-v1_1は、XTunerで最適化されたLLaVAモデルです。meta-llama/Meta-Llama-3-8B-InstructとCLIP-ViT-Large-patch14-336をベースに、ShareGPT4V-PTとInternVL-SFTでファインチューニングされています。画像とテキストの連携処理に特化しており、強力なマルチモーダル学習能力を備えています。様々な下流のデプロイメントや評価ツールキットに対応しています。