Em 2 de setembro, o Tongyi Qianwen anunciou a disponibilização em código aberto de seu modelo de linguagem visual de segunda geração, Qwen2-VL, e lançou APIs de seus modelos de 2B e 7B, além de versões quantizadas, na plataforma Aliyun Bailian, para uso direto pelos usuários.
O modelo Qwen2-VL alcançou melhorias significativas de desempenho em diversos aspectos. Ele consegue entender imagens com diferentes resoluções e proporções, apresentando resultados líderes mundialmente em testes de referência como DocVQA, RealWorldQA e MTVQA. Além disso, o modelo compreende vídeos longos de mais de 20 minutos, suportando aplicações como perguntas e respostas, conversas e criação de conteúdo baseadas em vídeo. O Qwen2-VL também possui capacidades robustas de agente de inteligência visual, podendo operar smartphones e robôs de forma autônoma, realizando inferências e tomadas de decisão complexas.
O modelo consegue entender textos multilíngues em imagens e vídeos, incluindo chinês, inglês, a maioria das línguas europeias, japonês, coreano, árabe e vietnamita. A equipe do Tongyi Qianwen avaliou as capacidades do modelo em seis aspectos: questões acadêmicas abrangentes, habilidades matemáticas, compreensão de imagens com texto multilíngue em documentos e tabelas, perguntas e respostas em cenários gerais, compreensão de vídeo e capacidades de agente.
O Qwen2-VL-72B, como modelo principal, atingiu o desempenho ideal na maioria dos indicadores. O Qwen2-VL-7B, com seu tamanho de parâmetros econômico, alcançou um desempenho extremamente competitivo, enquanto o Qwen2-VL-2B suporta uma ampla gama de aplicações em dispositivos móveis, possuindo capacidades completas de compreensão de imagens e vídeos multilíngues.
Em termos de arquitetura, o Qwen2-VL mantém a estrutura em série ViT + Qwen2. Os três modelos utilizam um ViT de 600M, suportando entrada unificada de imagens e vídeos. Para melhorar a percepção de informações visuais e a capacidade de compreensão de vídeo, a equipe fez melhorias na arquitetura, incluindo suporte total a resolução dinâmica nativa e o uso do método de incorporação posicional rotacional multimodal (M-ROPE).
A plataforma Aliyun Bailian oferece a API do Qwen2-VL-72B para chamada direta pelos usuários. Simultâneamente, os códigos abertos do Qwen2-VL-2B e Qwen2-VL-7B foram integrados ao Hugging Face Transformers, vLLM e outras estruturas de terceiros, permitindo que desenvolvedores baixem e utilizem os modelos por meio dessas plataformas.
Plataforma Aliyun Bailian:
https://help.aliyun.com/zh/model-studio/developer-reference/qwen-vl-api
GitHub:
https://github.com/QwenLM/Qwen2-VL
HuggingFace:
https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d
魔搭ModelScope (ModelScope):
https://modelscope.cn/organization/qwen?tab=model
Experiência com o modelo:
https://huggingface.co/spaces/Qwen/Qwen2-VL