InternVL2.5-MPO est une série de modèles linguistiques larges multimodaux de pointe, construite sur la base d'InternVL2.5 et optimisée par optimisation des préférences mixtes (MPO). Ce modèle intègre InternViT, entraîné de manière incrémentale, et divers grands modèles linguistiques pré-entraînés, notamment InternLM 2.5 et Qwen 2.5, en utilisant un projecteur MLP initialisé aléatoirement. InternVL2.5-MPO conserve dans sa nouvelle version l'architecture du modèle identique à InternVL 2.5 et à ses prédécesseurs, suivant le paradigme « ViT-MLP-LLM ». Ce modèle prend en charge les données multi-images et vidéo, et son efficacité est améliorée par l'optimisation des préférences mixtes (MPO), ce qui lui permet d'obtenir de meilleures performances sur les tâches multimodales.