A Alibaba Cloud lançou código aberto para o modelo de linguagem visual Qwen-VL, que segue o lançamento dos modelos de código aberto Qwen-7B (modelo geral) e Qwen-7B-Chat (modelo de conversa) em agosto. O Qwen-VL é outro grande modelo de código aberto. O Qwen-VL suporta chinês e inglês e pode ser usado em vários aplicativos, incluindo perguntas e respostas baseadas em conhecimento, geração de legendas de imagens e perguntas e respostas sobre imagens. Comparado a outros modelos, o Qwen-VL pode realizar localização de domínio aberto em chinês, marcando com precisão as caixas de delimitação em imagens. O Qwen-VL é baseado no Qwen-7B e inclui um codificador visual que suporta entrada de imagens. Em testes em várias tarefas de linguagem visual, o Qwen-VL alcançou os melhores resultados entre modelos semelhantes. O Qwen-VL já está disponível em plataformas de código aberto como o ModelScope. A multimodalidade é uma direção importante no desenvolvimento de grandes modelos, mas ainda enfrenta alguns desafios técnicos.