InternVL3 est un grand modèle linguistique multimodal (MLLM) open source publié par OpenGVLab, doté de capacités exceptionnelles de perception et d'inférence multimodales. Cette série de modèles comprend 7 tailles allant de 1 milliard à 78 milliards de paramètres, capables de traiter simultanément des informations de plusieurs types, telles que du texte, des images et des vidéos, démontrant ainsi des performances globales exceptionnelles. InternVL3 excelle dans l'analyse d'images industrielles et la perception visuelle 3D, ses performances globales en traitement de texte surpassant même celles de la série Qwen2.5. La publication en open source de ce modèle fournit un soutien puissant au développement d'applications multimodales et contribue à promouvoir l'utilisation des technologies multimodales dans un plus grand nombre de domaines.