InternVL2.5-MPO est une série de modèles linguistiques de grande taille multimodaux avancés, construite sur InternVL2.5 et l'optimisation des préférences mixtes (MPO). Cette série de modèles excelle dans les tâches multimodales, capable de traiter des données images, texte et vidéo, et de générer des réponses textuelles de haute qualité. Le modèle adopte le paradigme 'ViT-MLP-LLM', optimisant les capacités de traitement visuel grâce à l'opération de démélange de pixels et à une stratégie de résolution dynamique. De plus, le modèle intègre la prise en charge des données multi-images et vidéo, étendant ainsi son champ d'application. InternVL2.5-MPO a surpassé plusieurs modèles de référence dans l'évaluation des capacités multimodales, prouvant sa position de leader dans le domaine multimodal.