InternVL 2.5 ist eine Weiterentwicklung der Open-Source-Serie großer multimodaler Sprachmodelle InternVL 2.0. Bei Beibehaltung der Kernarchitektur wurden Trainings- und Teststrategien sowie die Datenqualität erheblich verbessert. Das Modell untersucht eingehend den Zusammenhang zwischen Modellskalierung und Leistung und erforscht systematisch die Leistungstrends von visuellen Encodern, Sprachmodellen, Datensatzgröße und Konfigurationen während des Testlaufs. Umfassende Evaluierungen in einer Vielzahl von Benchmarks, darunter multidisziplinäres Reasoning, Dokumentenverständnis, Verständnis von mehreren Bildern/Videos, Verständnis der realen Welt, Erkennung multimodaler Halluzinationen, visuelle Lokalisierung, mehrsprachige Fähigkeiten und reine Sprachverarbeitung, zeigen eine Wettbewerbsfähigkeit mit führenden kommerziellen Modellen wie GPT-4o und Claude-3.5-Sonnet. Insbesondere ist das Modell das erste Open-Source-MLLM, das im MMMU-Benchmark über 70 % erreicht. Durch Chain-of-Thought (CoT)-Inferenz wurde eine Verbesserung um 3,7 Prozentpunkte erzielt, und es zeigt ein starkes Potenzial für die Skalierung während des Tests.