InternVL2.5-MPO es una serie de modelos de lenguaje grandes multimodales avanzados, construidos sobre InternVL2.5 y optimización de preferencias mixtas. Este modelo integra InternViT con preentrenamiento incremental y varios modelos de lenguaje grandes preentrenados, como InternLM 2.5 y Qwen 2.5, utilizando un proyector MLP con inicialización aleatoria. Admite datos de múltiples imágenes y videos, y presenta un excelente rendimiento en tareas multimodales, pudiendo comprender y generar contenido textual relacionado con imágenes.