InternVL 2.5 est une série de modèles linguistiques de grande taille multimodaux lancée par OpenGVLab. Elle améliore significativement les stratégies d'entraînement et de test, ainsi que la qualité des données, par rapport à InternVL 2.0. Cette série de modèles peut traiter des données image, texte et vidéo, possédant des capacités de compréhension et de génération multimodales. Il s'agit d'un produit de pointe dans le domaine actuel de l'intelligence artificielle multimodale. La série de modèles InternVL 2.5, grâce à ses hautes performances et à son caractère open source, fournit un support puissant pour les tâches multimodales.