El departamento de computación en la nube de Alibaba acaba de lanzar un nuevo modelo de IA: Qwen2-VL. La potencia de este modelo radica en su capacidad para comprender contenido visual, incluyendo imágenes y videos, e incluso analizar videos de hasta 20 minutos en tiempo real; algo realmente impresionante.
Acceso al producto: https://qwenlm.github.io/blog/qwen2-vl/
En comparación con otros modelos avanzados líderes (como Llama3.1 de Meta, GPT-4o de OpenAI, Claude3Haiku de Anthropic y Gemini-1.5Flash de Google), Qwen2-VL ha demostrado un rendimiento excepcional en pruebas de referencia de terceros.
Alibaba evaluó la capacidad visual del modelo en seis dimensiones clave: resolución de problemas complejos a nivel universitario, habilidades matemáticas, comprensión de documentos y tablas, comprensión de texto e imágenes en múltiples idiomas, preguntas y respuestas en escenarios generales, comprensión de video e interacción basada en agentes. Su modelo de 72B mostró un rendimiento superior en la mayoría de los indicadores, incluso superando a modelos de código cerrado como GPT-4o y Claude 3.5-Sonnet. Cabe destacar su notable ventaja en la comprensión de documentos.
Capacidad de análisis de imágenes y videos excepcional
Qwen2-VL está diseñado para mejorar nuestra capacidad de comprensión y procesamiento de datos visuales. No solo analiza imágenes estáticas, sino que también resume el contenido de videos, responde preguntas relacionadas e incluso puede ofrecer soporte de chat en línea en tiempo real.
Como escribió el equipo de investigación de Qwen en su entrada del blog sobre la nueva serie de modelos Qwen2-VL en GitHub: "Además de las imágenes estáticas, Qwen2-VL extiende sus capacidades al análisis de contenido de video. Puede resumir el contenido del video, responder preguntas relacionadas y mantener un flujo de conversación continuo en tiempo real, ofreciendo soporte de chat en tiempo real. Esta función le permite actuar como asistente personal, ayudando a los usuarios proporcionando información y perspectivas extraídas directamente del contenido del video."
Más importante aún, según la información oficial, puede analizar videos de más de 20 minutos y responder preguntas sobre su contenido. Esto significa que Qwen2-VL puede ser una herramienta muy útil para el aprendizaje en línea, el soporte técnico o cualquier situación que requiera comprender el contenido de un video. La empresa también mostró un ejemplo del nuevo modelo analizando y describiendo correctamente el siguiente video:
Además, Qwen2-VL tiene una capacidad lingüística bastante potente, admite inglés, chino y varios idiomas europeos, así como japonés, coreano, árabe y vietnamita, permitiendo a usuarios de todo el mundo utilizarlo fácilmente. Para ayudar a comprender mejor sus capacidades, Alibaba también ha compartido ejemplos de aplicaciones en su GitHub.
Tres versiones
Este nuevo modelo tiene tres versiones con diferentes parámetros: Qwen2-VL-72B (72 mil millones de parámetros), Qwen2-VL-7B y Qwen2-VL-2B. Las versiones 7B y 2B están disponibles bajo la licencia Apache2.0 de código abierto, lo que permite a las empresas utilizarlas libremente con fines comerciales.
Sin embargo, la versión más grande de 72B aún no se ha hecho pública y solo se puede acceder a ella a través de una licencia y API especiales.
Además, Qwen2-VL introduce nuevas características técnicas, como el soporte de Naive Dynamic Resolution, que permite procesar imágenes de diferentes resoluciones garantizando la coherencia y precisión de la interpretación visual. También cuenta con el sistema Multimodal Rotary Position Embedding (M-ROPE), capaz de capturar e integrar información de posición de forma sincronizada entre texto, imágenes y videos.
El lanzamiento de Qwen2-VL representa un nuevo avance en la tecnología de los modelos de lenguaje visual. El equipo de Qwen de Alibaba afirma que continuará mejorando las funciones de estos modelos y explorando nuevas aplicaciones.
Puntos clave:
🌟 **Potente capacidad de análisis de video**: ¡Capaz de analizar en tiempo real videos de más de 20 minutos y responder preguntas relacionadas!
✅ 🌍 **Soporte multilingüe**: ¡Admite múltiples idiomas para facilitar su uso a nivel mundial!
✅ 📦 **Versiones de código abierto disponibles**: Las versiones 7B y 2B son de código abierto, lo que permite a las empresas utilizarlas libremente, ¡ideal para equipos innovadores!