Alibaba Cloud ha lanzado el nuevo modelo de visión Qwen2.5-VL de Tongyi Qianwen, disponible en tres tamaños: 3B, 7B y 72B.

La versión insignia, Qwen2.5-VL-72B, ha obtenido el primer puesto en 13 evaluaciones de comprensión visual, superando a GPT-4o y Claude3.5. Según Alibaba Cloud, el nuevo Qwen2.5-VL analiza el contenido de las imágenes con mayor precisión y, de forma innovadora, admite la comprensión de vídeos de más de una hora de duración. Este modelo puede buscar eventos específicos en vídeos y resumir los puntos clave de diferentes intervalos de tiempo, ayudando a los usuarios a extraer información clave de forma rápida y eficiente.

Alibaba Cloud Tongyi lanza Qwen2.5-VL: La IA visual más potente, supera a GPT-4o

Además, Qwen2.5-VL, sin necesidad de ajuste fino, puede convertirse en un agente visual de IA (Visual Agents) capaz de controlar teléfonos móviles y ordenadores, realizando operaciones complejas de varios pasos, como enviar felicitaciones a un amigo específico, retocar imágenes en el ordenador o reservar billetes en el móvil. Qwen2.5-VL no solo destaca en el reconocimiento de objetos comunes como flores, pájaros, peces e insectos, sino que también puede analizar texto, gráficos, iconos, figuras y diseños dentro de las imágenes. Alibaba Cloud también ha mejorado la capacidad de reconocimiento OCR de Qwen2.5-VL, reforzando el reconocimiento y la localización de texto en múltiples escenarios, idiomas y orientaciones.

Alibaba Cloud Tongyi lanza Qwen2.5-VL: La IA visual más potente, supera a GPT-4o

Simultáneamente, se ha mejorado significativamente la capacidad de extracción de información para satisfacer las crecientes demandas de digitalización e inteligencia en áreas como la verificación de credenciales y los negocios financieros.

Puntos clave:

 🌟 Alibaba Cloud Tongyi Qianwen lanza Qwen2.5-VL, disponible en tres versiones: 3B, 7B y 72B. 

📈 Qwen2.5-VL-72B supera a GPT-4o y Claude3.5 en las evaluaciones de comprensión visual. 

👀 Qwen2.5-VL admite la comprensión de vídeos de más de 1 hora y mejora la capacidad de reconocimiento OCR.