InternVL2_5-1B-MPO est un grand modèle linguistique multi-modal (MLLM) construit sur InternVL2.5 et l'optimisation par préférences mixtes (MPO), démontrant des performances globales supérieures. Ce modèle intègre InternViT, pré-entraîné de manière incrémentale, avec divers grands modèles linguistiques (LLM) pré-entraînés, notamment InternLM 2.5 et Qwen 2.5, utilisant un projecteur MLP initialisé aléatoirement. InternVL2_5-MPO conserve l'architecture « ViT-MLP-LLM » identique à celle d'InternVL 2.5 et de ses prédécesseurs, et introduit la prise en charge des données multi-images et vidéo. Ce modèle excelle dans les tâches multimodales, capable de gérer diverses tâches de vision-langage, notamment la description d'images et la question-réponse visuelle.