Recientemente, el laboratorio de IA de Shanghai anunció el lanzamiento del modelo InternVL2.5 de Shusheng. Este modelo de lenguaje grande multimodales de código abierto, con su rendimiento excepcional, se convierte en el primer modelo de código abierto en superar el 70% de precisión en el benchmark de comprensión multimodales (MMMU), rivalizando con modelos comerciales como GPT-4o y Claude-3.5-Sonnet.

El modelo InternVL2.5, mediante la técnica de razonamiento de pensamiento encadenado (CoT), logró una mejora del 3,7%, mostrando un gran potencial de escalabilidad en el tiempo de prueba. Este modelo se basa en InternVL2.0 y se ha mejorado aún más mediante el perfeccionamiento de las estrategias de entrenamiento y prueba, así como la mejora de la calidad de los datos. Se ha realizado una investigación exhaustiva en el codificador visual, el modelo de lenguaje, el tamaño del conjunto de datos y la configuración del tiempo de prueba para explorar la relación entre la escala del modelo y el rendimiento.

微信截图_20241210081428.png

InternVL2.5 ha demostrado un rendimiento competitivo en varias pruebas de referencia, especialmente en razonamiento multidisciplinar, comprensión de documentos, comprensión de múltiples imágenes/vídeos, comprensión del mundo real, detección de alucinaciones multimodales, grounding visual, capacidades multilingües y procesamiento de lenguaje puro. Este logro no solo proporciona a la comunidad de código abierto un nuevo estándar para el desarrollo y la aplicación de sistemas de IA multimodales, sino que también abre nuevas posibilidades para la investigación y aplicación en el campo de la inteligencia artificial.

InternVL2.5 conserva la misma arquitectura de modelo que sus predecesores, InternVL1.5 e InternVL2.0, siguiendo el paradigma "ViT-MLP-LLM", e integra el nuevo preentrenamiento incremental InternViT-6B o InternViT-300M con diferentes LLM preentrenados de varios tamaños y tipos, utilizando un proyector MLP de dos capas con inicialización aleatoria. Para mejorar la escalabilidad del procesamiento de alta resolución, el equipo de investigación aplicó una operación de desorden de píxeles, reduciendo la cantidad de tokens visuales a la mitad de la cantidad original.

La naturaleza de código abierto del modelo significa que los investigadores y desarrolladores pueden acceder y utilizar libremente InternVL2.5, lo que impulsará enormemente el desarrollo e innovación de la tecnología de IA multimodal.

Enlace del modelo:

https://www.modelscope.cn/collections/InternVL-25-fbde6e47302942