Alibaba Cloud ha lanzado código abierto para el modelo de lenguaje visual Qwen-VL, el cual se suma a los modelos de lenguaje de código abierto Qwen-7B y Qwen-7B-Chat (lanzados en agosto), consolidándose como otro gran modelo de código abierto. Qwen-VL admite chino e inglés y puede utilizarse en diversas aplicaciones, como preguntas y respuestas sobre conocimiento, generación de títulos de imágenes y preguntas y respuestas sobre imágenes. En comparación con otros modelos, Qwen-VL puede realizar una localización de dominio abierto en chino y etiquetar con precisión los cuadros delimitadores en las imágenes. Desarrollado basándose en Qwen-7B, Qwen-VL incorpora un codificador visual que admite la entrada de imágenes. En las pruebas realizadas en múltiples tareas de lenguaje visual, Qwen-VL ha obtenido los mejores resultados entre modelos similares. Qwen-VL ya está disponible en plataformas de código abierto como ModelScope. La multimodalidad es una dirección importante en el desarrollo de grandes modelos, aunque todavía presenta ciertos desafíos tecnológicos.
¡Qwen-VL, el nuevo modelo de lenguaje visual de Alibaba Cloud, permite a Tongyi Qianwen ver imágenes!
