Em 25 de agosto, a Alibaba Cloud lançou o Qwen-VL, um modelo de linguagem visual em larga escala que suporta múltiplos idiomas, incluindo chinês e inglês, e possui a capacidade de compreensão conjunta de texto e imagem. O Qwen-VL é baseado no modelo de linguagem universal Qwen-7B, anteriormente de código aberto da Alibaba Cloud. Em comparação com outros modelos de linguagem visual, o Qwen-VL adicionou recursos como localização visual e compreensão de texto em imagens. O Qwen-VL já recebeu mais de 3.400 estrelas no GitHub e mais de 400.000 downloads. Os modelos de linguagem visual são considerados uma importante direção de evolução da IA geral. A indústria acredita que modelos que suportam entrada multimodais podem melhorar a capacidade de compreensão do mundo e expandir os cenários de uso. Através do código aberto do Qwen-VL, a Alibaba Cloud promove ainda mais o progresso da tecnologia de IA geral.
Alibaba Cloud lança modelo multi-modal Qwen-VL de código aberto

亿邦动力
53
© Todos os direitos reservados AIbase Base 2024, clique para ver a fonte - https://www.aibase.com/pt/news/817