InternVL3 es un gran modelo de lenguaje multimodal (MLLM) de código abierto publicado por OpenGVLab, que cuenta con una excelente capacidad de percepción e inferencia multimodal. Esta serie de modelos incluye 7 tamaños, desde 1B hasta 78B, capaces de procesar simultáneamente información de varios tipos, como texto, imágenes y videos, mostrando un rendimiento general excelente. InternVL3 destaca en el análisis de imágenes industriales y la percepción visual 3D; su rendimiento general de texto incluso supera al de la serie Qwen2.5. La publicación de código abierto de este modelo proporciona un potente soporte para el desarrollo de aplicaciones multimodales y ayuda a impulsar la aplicación de la tecnología multimodal en más áreas.