InternVL 2.5 est une série de modèles linguistiques de grande taille multimodaux (MLLM) avancés, développés à partir d'InternVL 2.0 grâce à l'introduction de stratégies d'entraînement et de test significativement améliorées et à une meilleure qualité des données. Cette série de modèles est optimisée pour la perception visuelle et les capacités multimodales, prenant en charge diverses fonctionnalités, notamment la conversion image-texte, et convient aux tâches complexes nécessitant le traitement d'informations visuelles et linguistiques.