InternVL2.5-MPO es una serie avanzada de modelos de lenguaje grandes multimodales, construida sobre InternVL2.5 y optimización de preferencias mixtas (MPO). Esta serie de modelos destaca en tareas multimodales, pudiendo procesar datos de imágenes, texto y vídeo, y generando respuestas de texto de alta calidad. El modelo adopta el paradigma 'ViT-MLP-LLM', optimizando la capacidad de procesamiento visual mediante la operación de desmezcla de píxeles y una estrategia de resolución dinámica. Además, el modelo incorpora soporte para datos de múltiples imágenes y vídeos, ampliando aún más sus escenarios de aplicación. InternVL2.5-MPO supera a varios modelos de referencia en evaluaciones de capacidad multimodal, demostrando su liderazgo en el campo multimodal.