El equipo de Tongyi Qianwen del Instituto de Investigación de Alibaba DAMO anunció el 30 de agosto de 2024 una importante actualización de su último logro: el modelo Qwen2-VL. El modelo Qwen2-VL ha experimentado mejoras significativas en la comprensión de imágenes, el procesamiento de video y el soporte multilingüe, estableciendo nuevos estándares para los indicadores clave de rendimiento.

Las nuevas funciones del modelo Qwen2-VL incluyen una capacidad mejorada de comprensión de imágenes, lo que permite una interpretación más precisa de la información visual; una capacidad avanzada de comprensión de video, que permite al modelo analizar contenido de video dinámico en tiempo real; una función de agente visual integrada, que transforma el modelo en un potente agente capaz de realizar inferencias y toma de decisiones complejas; y una compatibilidad multilingüe ampliada, lo que facilita su acceso y eficacia en diferentes entornos lingüísticos.

微信截图_20240830075330.png

En cuanto a la arquitectura técnica, Qwen2-VL ha implementado soporte de resolución dinámica, capaz de procesar imágenes de cualquier resolución sin necesidad de dividirlas en bloques, garantizando así la coherencia entre la entrada del modelo y la información intrínseca de la imagen. Además, la innovación de la incrustación posicional rotatoria multimodal (M-ROPE) permite al modelo capturar e integrar simultáneamente información posicional de texto 1D, visual 2D y de video 3D.

El modelo Qwen2-VL-7B, con un tamaño de 7B, conserva con éxito el soporte para imágenes, múltiples imágenes y entradas de video, y muestra un excelente rendimiento en tareas de comprensión de documentos y comprensión de texto multilingüe de imágenes.

Asimismo, el equipo ha lanzado un modelo de 2B optimizado para la implementación móvil, que a pesar de tener solo 2B de parámetros, destaca en la comprensión de imágenes, video y multilingüe.

Enlaces del modelo:

Qwen2-VL-2B-Instruct:https://www.modelscope.cn/models/qwen/Qwen2-VL-2B-Instruct

Qwen2-VL-7B-Instruct:https://www.modelscope.cn/models/qwen/Qwen2-VL-7B-Instruct