Das Shanghai AI Laboratory hat kürzlich das Modell „Shusheng · Wanxiang InternVL2.5“ vorgestellt. Dieses quelloffene, multimodale, große Sprachmodell zeichnet sich durch seine herausragende Leistung aus und ist das erste quelloffene Modell, das im Multimodal Understanding Benchmark (MMMU) eine Genauigkeit von über 70 % erreicht. Seine Leistung ist vergleichbar mit kommerziellen Modellen wie GPT-4o und Claude-3.5-Sonnet.
InternVL2.5 erzielt durch die Chain-of-Thought (CoT)-Inferenztechnik eine Verbesserung um 3,7 Prozentpunkte und zeigt ein starkes Potenzial für die Skalierbarkeit der Testzeit. Das Modell baut auf InternVL2.0 auf und verbessert seine Leistung durch verbesserte Trainings- und Teststrategien sowie eine höhere Datenqualität. Es wurden eingehende Untersuchungen zu visuellen Encodere, Sprachmodellen, Datensatzgröße und Testzeitkonfigurationen durchgeführt, um die Beziehung zwischen Modellgröße und Leistung zu erforschen.
InternVL2.5 zeigt in mehreren Benchmark-Tests eine wettbewerbsfähige Leistung, insbesondere in den Bereichen multidisziplinäres Reasoning, Dokumentenverständnis, Verständnis von mehreren Bildern/Videos, Realweltverständnis, multimodale Halluzinationserkennung, visuelle Grounding, mehrsprachige Fähigkeiten und reine Sprachverarbeitung. Dieses Ergebnis setzt nicht nur einen neuen Standard für die Open-Source-Community bei der Entwicklung und Anwendung multimodaler KI-Systeme, sondern eröffnet auch neue Möglichkeiten für Forschung und Anwendung im Bereich der künstlichen Intelligenz.
InternVL2.5 behält die gleiche Modellarchitektur wie seine Vorgänger InternVL1.5 und InternVL2.0 bei und folgt dem „ViT-MLP-LLM“-Paradigma. Es integriert das neu inkremental vortrainierte InternViT-6B oder InternViT-300M mit verschiedenen vorab trainierten LLMs unterschiedlicher Größe und Typen, wobei ein zweischichtiger MLP-Projektor mit zufälliger Initialisierung verwendet wird. Um die Skalierbarkeit der Verarbeitung hochauflösender Bilder zu verbessern, verwendet das Forschungsteam eine pixelunabhängige Operation, die die Anzahl der visuellen Token auf die Hälfte der ursprünglichen Anzahl reduziert.
Der Open-Source-Charakter des Modells bedeutet, dass Forscher und Entwickler freien Zugriff auf InternVL2.5 haben und es verwenden können. Dies wird die Entwicklung und Innovation im Bereich der multimodalen KI-Technologie erheblich fördern.
Modell-Link:
https://www.modelscope.cn/collections/InternVL-25-fbde6e47302942