InternVL2_5-2B-MPO est une série de modèles linguistiques larges multimodaux démontrant des performances globales exceptionnelles. Cette série est construite sur la base d'InternVL2.5 et de l'optimisation des préférences hybrides. Elle intègre InternViT, pré-entraîné de manière incrémentale, avec divers modèles linguistiques larges pré-entraînés, notamment InternLM 2.5 et Qwen 2.5, utilisant un projecteur MLP initialisé aléatoirement. Le modèle excelle dans les tâches multimodales, capable de traiter divers types de données, y compris les images et le texte, et convient aux scénarios nécessitant la compréhension et la génération de contenu multimodal.