InternVL2.5-MPO ist eine Serie multimodaler großer Sprachmodelle, die auf InternVL2.5 und der Mixed Preference Optimization (MPO) basieren. Sie zeichnet sich durch hervorragende Leistung bei multimodalen Aufgaben aus. Durch die Integration von neu hinzugefügten inkrementellen Vor-trainierten InternViT mit verschiedenen vor-trainierten großen Sprachmodellen (LLMs) wie InternLM 2.5 und Qwen 2.5 unter Verwendung von zufällig initialisierten MLP-Projektoren. Die Modellserie wurde auf dem MMPR-Datensatz für multimodale Inferenzpräferenzen trainiert, der etwa 3 Millionen Beispiele enthält. Durch einen effizienten Datenaufbauprozess und die Mixed Preference Optimization-Technologie wurden die Inferenzfähigkeit und die Qualität der Antworten des Modells verbessert.