Qwen-VL
Modelo de linguagem visual de uso geral
Produto ComumProdutividadeVisãoModelo de Linguagem
Qwen-VL é um modelo de linguagem visual de uso geral lançado pela Alibaba Cloud, com poderosas capacidades de compreensão visual e raciocínio multimodal. Ele suporta tarefas como descrição de imagens de zero-shot, perguntas e respostas visuais, compreensão de texto e localização de marcos em imagens, atingindo ou superando os níveis atuais de excelência em vários testes de benchmark visual. O modelo utiliza a arquitetura Transformer, pré-treinado com 7 bilhões de parâmetros, suporta resolução de 448x448 e pode processar de forma end-to-end entradas e saídas multimodais de imagens e texto. As vantagens do Qwen-VL incluem alta versatilidade, suporte multilíngue e compreensão granular. Pode ser amplamente aplicado em tarefas como compreensão de imagens, perguntas e respostas visuais, anotação de imagens e geração de imagens com texto.
Qwen-VL Situação do Tráfego Mais Recente
Total de Visitas Mensais
474564576
Taxa de Rejeição
36.20%
Média de Páginas por Visita
6.1
Duração Média da Visita
00:06:34