Alibaba ha lanzado recientemente un nuevo modelo de razonamiento multimodal llamado QVQ-72B. Este modelo, basado en Qwen2-VL-72B, integra potentes capacidades lingüísticas y visuales, lo que le permite gestionar tareas de razonamiento y análisis más complejas. Esto representa un nuevo avance de Alibaba en el campo de la IA multimodal.

QVQ-72B muestra una mejora significativa en el razonamiento visual, problemas matemáticos y científicos, especialmente en tareas de razonamiento de múltiples pasos. Esto significa que el modelo no solo comprende información textual, sino también información de imágenes, y puede resolver problemas complejos mediante razonamiento de múltiples pasos, algo que los modelos de IA tradicionales no pueden lograr.

image.png

Uno de los aspectos más destacados del modelo es su capacidad para combinar información textual y visual en problemas de física para deducir relaciones causales. Por ejemplo, puede deducir la relación causal de un evento basándose en una imagen de una escena física y una descripción textual relacionada, mostrando una capacidad de comprensión más profunda.

En tareas de razonamiento matemático (como álgebra y cálculo), QVQ-72B reduce significativamente la tasa de error mediante el razonamiento paso a paso. Esto indica que el modelo no solo puede realizar cálculos simples, sino también razonamiento matemático complejo, proporcionando pasos de resolución claros y ofreciendo una nueva herramienta para resolver problemas matemáticos complejos.

image.png

Además, QVQ-72B tiene una alta precisión y eficiencia en la extracción de información clave de informes técnicos y análisis de gráficos complejos. Puede extraer información clave de forma rápida y precisa de documentos y gráficos complejos, proporcionando una potente herramienta de apoyo para investigadores, analistas y otros profesionales.

En cuanto al reconocimiento de imágenes, QVQ-72B puede identificar con precisión los detalles de las imágenes, como la ubicación de los objetos, el color, la relación espacial y las escenas complejas. Esto significa que el modelo se puede aplicar a una gama más amplia de escenarios, como la vigilancia inteligente y la conducción autónoma.

En resumen, el modelo de razonamiento multimodal QVQ-72B de Alibaba, con sus potentes capacidades visuales, lingüísticas y de razonamiento, ofrece nuevas ideas y herramientas para resolver problemas complejos. Su aparición impulsará sin duda la aplicación de la inteligencia artificial en diversos campos, inyectando una nueva fuerza impulsora en la modernización inteligente de todos los sectores.

Prueba online: https://huggingface.co/spaces/Qwen/QVQ-72B-preview

Información detallada: https://qwenlm.github.io/blog/qvq-72b-preview/