InternVL 2.5 é uma série de modelos de linguagem grandes multimodais avançados. Baseado no InternVL 2.0, ele mantém sua arquitetura de modelo central, mas foi aprimorado por meio da introdução de estratégias significativas de treinamento e teste, além de melhorias na qualidade dos dados. O modelo integra o InternViT pré-treinado incrementalmente com vários modelos de linguagem grandes pré-treinados, como InternLM 2.5 e Qwen 2.5, utilizando um projetor MLP de inicialização aleatória. O InternVL 2.5 suporta dados de múltiplas imagens e vídeos, possui um método de treinamento de alta resolução dinâmica e oferece melhor desempenho no processamento de dados multimodais.