InternVL 2.5
Serie de modelos lingüísticos grandes multimodales de código abierto
Producto ComúnProductividadMultimodalModelo lingüístico grande
InternVL 2.5 es una serie avanzada de modelos lingüísticos grandes multimodales basada en InternVL 2.0. Mantiene la arquitectura del modelo central, pero incorpora mejoras significativas en las estrategias de entrenamiento y prueba, así como en la calidad de los datos. El modelo explora en profundidad la relación entre la ampliación del modelo y el rendimiento, investigando sistemáticamente las tendencias de rendimiento del codificador visual, el modelo lingüístico, el tamaño del conjunto de datos y la configuración en tiempo de prueba. A través de una amplia evaluación en una variedad de benchmarks, incluyendo razonamiento multidisciplinar, comprensión de documentos, comprensión de múltiples imágenes/vídeos, comprensión del mundo real, detección de alucinaciones multimodales, localización visual, capacidades multilingües y procesamiento de lenguaje puro, InternVL 2.5 demuestra una competitividad comparable a modelos comerciales líderes como GPT-4o y Claude-3.5-Sonnet. En particular, es el primer MLLM de código abierto que supera el 70% en el benchmark MMMU, logrando una mejora del 3,7% mediante razonamiento en cadena (CoT) y mostrando un potente potencial de escalabilidad en tiempo de prueba.
InternVL 2.5 Situación del tráfico más reciente
Total de visitas mensuales
29742941
Tasa de rebote
44.20%
Páginas promedio por visita
5.9
Duración promedio de la visita
00:04:44