InternVL2.5-MPO es una serie de modelos lingüísticos grandes multimodales avanzados, construida sobre InternVL2.5 y optimización de preferencias mixtas. Este modelo integra InternViT con preentrenamiento incremental y varios modelos lingüísticos grandes preentrenados, incluyendo InternLM 2.5 y Qwen 2.5, utilizando un proyector MLP con inicialización aleatoria. InternVL2.5-MPO conserva en esta nueva versión la misma arquitectura de modelo que InternVL 2.5 y sus predecesores, siguiendo el paradigma "ViT-MLP-LLM". El modelo admite datos de múltiples imágenes y vídeo, y mediante la optimización de preferencias mixtas (MPO) se mejora aún más el rendimiento del modelo, lo que lo hace superior en tareas multimodales.