InternVL2.5-MPO ist eine Reihe fortschrittlicher multimodaler großer Sprachmodelle, die auf InternVL2.5 und Mixed Preference Optimization (MPO) basieren. Diese Modellreihe zeichnet sich durch hervorragende Leistung in multimodalen Aufgaben aus und kann Bild-, Text- und Videodaten verarbeiten sowie hochwertige Textantworten generieren. Das Modell verwendet das 'ViT-MLP-LLM'-Paradigma und optimiert die visuelle Verarbeitung durch Pixel-Unshuffling und dynamische Auflösungsstrategien. Darüber hinaus unterstützt das Modell mehrere Bilder und Videos, wodurch sein Anwendungsbereich erweitert wird. InternVL2.5-MPO übertrifft in multimodale Leistungsbewertungen mehrere Benchmark-Modelle und beweist damit seine führende Position im multimodalen Bereich.