Em 2 de setembro, o Tongyi Qianwen anunciou a disponibilização em código aberto de seu modelo de linguagem visual de segunda geração, Qwen2-VL, e lançou APIs de seus modelos de 2B e 7B, além de versões quantizadas, na plataforma Aliyun Bailian, para uso direto pelos usuários.

O modelo Qwen2-VL alcançou melhorias significativas de desempenho em diversos aspectos. Ele consegue entender imagens com diferentes resoluções e proporções, apresentando resultados líderes mundialmente em testes de referência como DocVQA, RealWorldQA e MTVQA. Além disso, o modelo compreende vídeos longos de mais de 20 minutos, suportando aplicações como perguntas e respostas, conversas e criação de conteúdo baseadas em vídeo. O Qwen2-VL também possui capacidades robustas de agente de inteligência visual, podendo operar smartphones e robôs de forma autônoma, realizando inferências e tomadas de decisão complexas.

O modelo consegue entender textos multilíngues em imagens e vídeos, incluindo chinês, inglês, a maioria das línguas europeias, japonês, coreano, árabe e vietnamita. A equipe do Tongyi Qianwen avaliou as capacidades do modelo em seis aspectos: questões acadêmicas abrangentes, habilidades matemáticas, compreensão de imagens com texto multilíngue em documentos e tabelas, perguntas e respostas em cenários gerais, compreensão de vídeo e capacidades de agente.

微信截图_20240902141930.png

O Qwen2-VL-72B, como modelo principal, atingiu o desempenho ideal na maioria dos indicadores. O Qwen2-VL-7B, com seu tamanho de parâmetros econômico, alcançou um desempenho extremamente competitivo, enquanto o Qwen2-VL-2B suporta uma ampla gama de aplicações em dispositivos móveis, possuindo capacidades completas de compreensão de imagens e vídeos multilíngues.

Em termos de arquitetura, o Qwen2-VL mantém a estrutura em série ViT + Qwen2. Os três modelos utilizam um ViT de 600M, suportando entrada unificada de imagens e vídeos. Para melhorar a percepção de informações visuais e a capacidade de compreensão de vídeo, a equipe fez melhorias na arquitetura, incluindo suporte total a resolução dinâmica nativa e o uso do método de incorporação posicional rotacional multimodal (M-ROPE).

A plataforma Aliyun Bailian oferece a API do Qwen2-VL-72B para chamada direta pelos usuários. Simultâneamente, os códigos abertos do Qwen2-VL-2B e Qwen2-VL-7B foram integrados ao Hugging Face Transformers, vLLM e outras estruturas de terceiros, permitindo que desenvolvedores baixem e utilizem os modelos por meio dessas plataformas.

Plataforma Aliyun Bailian:

https://help.aliyun.com/zh/model-studio/developer-reference/qwen-vl-api 

GitHub:

https://github.com/QwenLM/Qwen2-VL

HuggingFace:

https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d

魔搭ModelScope (ModelScope):

https://modelscope.cn/organization/qwen?tab=model

Experiência com o modelo:

https://huggingface.co/spaces/Qwen/Qwen2-VL