InternVL2.5-MPO ist eine fortschrittliche Serie großer, multimodaler Sprachmodelle, basierend auf InternVL2.5 und optimiert durch Hybrid Preference Optimization. Das Modell integriert das inkrementell vortrainierte InternViT und verschiedene vortrainierte große Sprachmodelle wie InternLM 2.5 und Qwen 2.5, wobei ein zufällig initialisierter MLP-Projektor verwendet wird. Es unterstützt die Verarbeitung von mehreren Bildern und Videos und liefert herausragende Leistungen in multimodalen Aufgaben. Es kann textbasierte Inhalte im Zusammenhang mit Bildern verstehen und generieren.