InternVL2_5-26B é um modelo de linguagem grande multimodal (MLLM) avançado, desenvolvido a partir do InternVL 2.0, com aprimoramentos significativos nas estratégias de treinamento e teste, além de melhorias na qualidade dos dados. O modelo mantém a arquitetura central 'ViT-MLP-LLM' de seu antecessor, integrando o InternViT pré-treinado adicionalmente e vários modelos de linguagem grandes (LLMs) pré-treinados, como InternLM 2.5 e Qwen 2.5, utilizando projetores MLP com inicialização aleatória. A série de modelos InternVL 2.5 demonstra desempenho excepcional em tarefas multimodais, especialmente na percepção visual e na capacidade multimodal.