InternVL 2.5 es una serie avanzada de modelos lingüísticos grandes multimodales basada en InternVL 2.0. Mantiene la arquitectura del modelo central, pero incorpora mejoras significativas en las estrategias de entrenamiento y prueba, así como en la calidad de los datos. El modelo explora en profundidad la relación entre la ampliación del modelo y el rendimiento, investigando sistemáticamente las tendencias de rendimiento del codificador visual, el modelo lingüístico, el tamaño del conjunto de datos y la configuración en tiempo de prueba. A través de una amplia evaluación en una variedad de benchmarks, incluyendo razonamiento multidisciplinar, comprensión de documentos, comprensión de múltiples imágenes/vídeos, comprensión del mundo real, detección de alucinaciones multimodales, localización visual, capacidades multilingües y procesamiento de lenguaje puro, InternVL 2.5 demuestra una competitividad comparable a modelos comerciales líderes como GPT-4o y Claude-3.5-Sonnet. En particular, es el primer MLLM de código abierto que supera el 70% en el benchmark MMMU, logrando una mejora del 3,7% mediante razonamiento en cadena (CoT) y mostrando un potente potencial de escalabilidad en tiempo de prueba.