O InternViT-6B-448px-V2_5 é um modelo de visão baseado no InternViT-6B-448px-V1-5. Ele melhora a capacidade do codificador visual de extrair recursos visuais por meio do aprendizado incremental do ViT e da perda NTP (fase 1.5), especialmente em áreas sub-representadas em grandes conjuntos de dados, como dados de OCR multilíngues e gráficos matemáticos. Este modelo faz parte da série InternVL 2.5, mantendo a mesma arquitetura "ViT-MLP-LLM" de seu antecessor, integrando o InternViT pré-treinado incrementalmente com vários LLMs pré-treinados, incluindo InternLM 2.5 e Qwen 2.5, usando um projetor MLP com inicialização aleatória.