InternVL 2.5

Serie de modelos lingüísticos grandes multimodales de código abierto

Producto ComúnProductividadMultimodalModelo lingüístico grande
InternVL 2.5 es una serie avanzada de modelos lingüísticos grandes multimodales basada en InternVL 2.0. Mantiene la arquitectura del modelo central, pero incorpora mejoras significativas en las estrategias de entrenamiento y prueba, así como en la calidad de los datos. El modelo explora en profundidad la relación entre la ampliación del modelo y el rendimiento, investigando sistemáticamente las tendencias de rendimiento del codificador visual, el modelo lingüístico, el tamaño del conjunto de datos y la configuración en tiempo de prueba. A través de una amplia evaluación en una variedad de benchmarks, incluyendo razonamiento multidisciplinar, comprensión de documentos, comprensión de múltiples imágenes/vídeos, comprensión del mundo real, detección de alucinaciones multimodales, localización visual, capacidades multilingües y procesamiento de lenguaje puro, InternVL 2.5 demuestra una competitividad comparable a modelos comerciales líderes como GPT-4o y Claude-3.5-Sonnet. En particular, es el primer MLLM de código abierto que supera el 70% en el benchmark MMMU, logrando una mejora del 3,7% mediante razonamiento en cadena (CoT) y mostrando un potente potencial de escalabilidad en tiempo de prueba.
Abrir sitio web

InternVL 2.5 Situación del tráfico más reciente

Total de visitas mensuales

29742941

Tasa de rebote

44.20%

Páginas promedio por visita

5.9

Duración promedio de la visita

00:04:44

InternVL 2.5 Tendencia de visitas

InternVL 2.5 Distribución geográfica de las visitas

InternVL 2.5 Fuentes de tráfico

InternVL 2.5 Alternativas