InternVL3 ist ein von OpenGVLab Open Source veröffentlichtes großes multimodales Sprachmodell (MLLM) mit herausragenden multimodalen Wahrnehmungs- und Schlussfolgerungsfähigkeiten. Die Modellreihe umfasst 7 Größen von 1B bis 78B und kann gleichzeitig verschiedene Informationen wie Text, Bilder und Videos verarbeiten, wobei eine hervorragende Gesamtleistung gezeigt wird. InternVL3 zeichnet sich in Bereichen wie industrieller Bildanalyse und 3D-Wahrnehmung aus, wobei die allgemeine Textleistung sogar die der Qwen2.5-Serie übertrifft. Die Open-Source-Veröffentlichung des Modells bietet eine starke Unterstützung für die Entwicklung multimodaler Anwendungen und trägt dazu bei, die Anwendung multimodaler Technologien in weiteren Bereichen voranzutreiben.