A Alibaba Cloud lançou código aberto para o modelo de linguagem visual Qwen-VL, que segue o lançamento dos modelos de código aberto Qwen-7B (modelo geral) e Qwen-7B-Chat (modelo de conversa) em agosto. O Qwen-VL é outro grande modelo de código aberto. O Qwen-VL suporta chinês e inglês e pode ser usado em vários aplicativos, incluindo perguntas e respostas baseadas em conhecimento, geração de legendas de imagens e perguntas e respostas sobre imagens. Comparado a outros modelos, o Qwen-VL pode realizar localização de domínio aberto em chinês, marcando com precisão as caixas de delimitação em imagens. O Qwen-VL é baseado no Qwen-7B e inclui um codificador visual que suporta entrada de imagens. Em testes em várias tarefas de linguagem visual, o Qwen-VL alcançou os melhores resultados entre modelos semelhantes. O Qwen-VL já está disponível em plataformas de código aberto como o ModelScope. A multimodalidade é uma direção importante no desenvolvimento de grandes modelos, mas ainda enfrenta alguns desafios técnicos.
O Qwen-VL, modelo de linguagem visual de código aberto da Alibaba Cloud, permite que o Tongyi Qianwen veja imagens!

AI前线
Este artigo é do AIbase Daily
Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.