El 25 de agosto, Alibaba Cloud lanzó Qwen-VL, un modelo de lenguaje visual a gran escala que admite múltiples idiomas, incluyendo chino e inglés, y posee la capacidad de comprender conjuntamente texto e imágenes. Qwen-VL se basa en el modelo de lenguaje general Qwen-7B, previamente de código abierto por Alibaba Cloud. En comparación con otros modelos de lenguaje visual, Qwen-VL añade capacidades como la localización visual y la comprensión de texto dentro de imágenes. Qwen-VL ya ha obtenido más de 3400 estrellas en GitHub y más de 400.000 descargas. Los modelos de lenguaje visual se consideran una dirección importante en la evolución de la IA general. La industria cree que los modelos que admiten entradas multimodales pueden mejorar la capacidad de comprensión del mundo y ampliar los escenarios de uso. Alibaba Cloud, a través del código abierto de Qwen-VL, impulsa aún más el progreso de la tecnología de IA general.
Alibaba Cloud lanza Qwen-VL, un modelo multimodal de lenguaje grande de código abierto
