El equipo de Qwen ha anunciado recientemente la publicación de código abierto de su último modelo de inferencia multimodal, QVQ, lo que representa un paso importante en la capacidad de la inteligencia artificial para comprender imágenes y resolver problemas complejos. Este modelo, basado en Qwen2-VL-72B, tiene como objetivo mejorar la capacidad de razonamiento de la IA mediante la combinación de información lingüística y visual. En la evaluación MMMU, QVQ obtuvo una alta puntuación de 70.3, y mostró una mejora significativa en el rendimiento en varias pruebas de referencia matemáticas en comparación con Qwen2-VL-72B-Instruct.

El modelo QVQ muestra ventajas particulares en tareas de razonamiento visual, especialmente en áreas que requieren un pensamiento analítico complejo. Aunque QVQ-72B-Preview ha demostrado un rendimiento excepcional, el equipo también ha señalado algunas limitaciones del modelo, incluyendo problemas de mezcla de idiomas y cambio de código, la posibilidad de caer en bucles lógicos, consideraciones de seguridad y ética, y limitaciones de rendimiento y de referencia. El equipo enfatiza que, aunque el modelo ha mejorado en el razonamiento visual, no puede reemplazar completamente las capacidades de Qwen2-VL-72B; en procesos de razonamiento visual de múltiples pasos, el modelo puede perder gradualmente el enfoque en el contenido de la imagen, lo que lleva a alucinaciones.

微信截图_20241225075810.png

El equipo de Qwen evaluó QVQ-72B-Preview en cuatro conjuntos de datos: MMMU, MathVista, MathVision y OlympiadBench, diseñados para evaluar la capacidad del modelo para comprender y razonar de forma integral en relación con las imágenes. QVQ-72B-Preview mostró un excelente rendimiento en estas pruebas de referencia, reduciendo eficazmente la brecha con los modelos líderes.

Para mostrar aún más las aplicaciones del modelo QVQ en tareas de razonamiento visual, el equipo de Qwen proporciona varios ejemplos y comparte enlaces a su blog técnico. Además, el equipo proporciona ejemplos de código para la inferencia del modelo, y cómo utilizar la API de inferencia de ModelScope para llamar directamente al modelo QVQ-72B-Preview. La API de inferencia de la plataforma ModelScope admite el modelo QVQ-72B-Preview, permitiendo a los usuarios utilizar el modelo directamente mediante llamadas a la API.

Enlace del modelo:

https://modelscope.cn/models/Qwen/QVQ-72B-Preview

Enlace de prueba:

https://modelscope.cn/studios/Qwen/QVQ-72B-preview

Blog en chino:

https://qwenlm.github.io/zh/blog/qvq-72b-preview