InternVL2.5-MPO ist eine Reihe fortschrittlicher, multimodaler, großer Sprachmodelle, die auf InternVL2.5 und der Hybrid Preference Optimization (MPO) basieren. Das Modell integriert das neu inkrementell vortrainierte InternViT mit verschiedenen vortrainierten großen Sprachmodellen, darunter InternLM 2.5 und Qwen 2.5, unter Verwendung von zufällig initialisierten MLP-Projektoren. InternVL2.5-MPO behält im Vergleich zu InternVL 2.5 und seinen Vorgängern die gleiche Modellarchitektur bei und folgt dem "ViT-MLP-LLM"-Paradigma. Das Modell unterstützt multimodale Daten von Bildern und Videos und verbessert seine Leistung durch Hybrid Preference Optimization (MPO) für optimale Ergebnisse bei multimodalen Aufgaben.