InternVL2_5-8B-MPO-AWQ ist ein von OpenGVLab entwickeltes großes multimodales Sprachmodell. Es basiert auf der InternVL2.5-Serie und nutzt die Technik der gemischten Präferenzoptimierung (Mixed Preference Optimization, MPO). Das Modell zeigt eine herausragende Leistung im Verständnis und der Generierung von Bild und Sprache, insbesondere bei multimodalen Aufgaben. Durch die Kombination von InternViT (visueller Teil) und InternLM oder Qwen (sprachlicher Teil) und die Verwendung von zufällig initialisierten MLP-Projektoren für das inkrementelle Pretraining, erreicht es ein tiefes Verständnis und eine interaktive Verarbeitung von Bildern und Text. Die Bedeutung dieser Technik liegt in der Fähigkeit, verschiedene Datentypen zu verarbeiten, darunter Einzelbilder, mehrere Bilder und Videodaten, was neue Lösungen für den Bereich der multimodalen künstlichen Intelligenz bietet.