LLaVA-3b é um modelo ajustado com base no Dolphin 2.6 Phi, utilizando a torre visual SigLIP 400M com ajuste fino no estilo LLaVA. O modelo possui múltiplas marcações de imagem e utiliza a saída da camada mais recente do codificador visual, entre outras características. Este modelo é baseado no Phi-2, sujeito à licença de pesquisa da Microsoft, e seu uso comercial é proibido. Agradecemos ao ML Collective pelos créditos de recursos computacionais.