Alibaba Cloud ha lanzado código abierto para el modelo de lenguaje visual Qwen-VL, el cual se suma a los modelos de lenguaje de código abierto Qwen-7B y Qwen-7B-Chat (lanzados en agosto), consolidándose como otro gran modelo de código abierto. Qwen-VL admite chino e inglés y puede utilizarse en diversas aplicaciones, como preguntas y respuestas sobre conocimiento, generación de títulos de imágenes y preguntas y respuestas sobre imágenes. En comparación con otros modelos, Qwen-VL puede realizar una localización de dominio abierto en chino y etiquetar con precisión los cuadros delimitadores en las imágenes. Desarrollado basándose en Qwen-7B, Qwen-VL incorpora un codificador visual que admite la entrada de imágenes. En las pruebas realizadas en múltiples tareas de lenguaje visual, Qwen-VL ha obtenido los mejores resultados entre modelos similares. Qwen-VL ya está disponible en plataformas de código abierto como ModelScope. La multimodalidad es una dirección importante en el desarrollo de grandes modelos, aunque todavía presenta ciertos desafíos tecnológicos.
¡Qwen-VL, el nuevo modelo de lenguaje visual de Alibaba Cloud, permite a Tongyi Qianwen ver imágenes!

AI前线
Este artículo proviene de AIbase Daily
¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.