A equipe do Tongyi Qianwen, do Alibaba DAMO Academy, anunciou em 30 de agosto de 2024 uma grande atualização em seu mais recente modelo: o Qwen2-VL. O modelo Qwen2-VL apresentou melhorias significativas na compreensão de imagens, processamento de vídeo e suporte multilíngue, estabelecendo novos padrões para métricas de desempenho-chave.
Os novos recursos do modelo Qwen2-VL incluem capacidade aprimorada de compreensão de imagens, permitindo uma interpretação mais precisa das informações visuais; capacidade avançada de compreensão de vídeo, permitindo que o modelo analise conteúdo de vídeo dinâmico em tempo real; funcionalidade de agente visual integrada, transformando o modelo em um poderoso agente capaz de realizar raciocínios e tomadas de decisão complexas; e suporte multilíngue expandido, tornando-o mais acessível e eficaz em diferentes contextos linguísticos.
Em termos de arquitetura técnica, o Qwen2-VL implementou suporte de resolução dinâmica, capaz de processar imagens de qualquer resolução sem a necessidade de divisão em blocos, garantindo a consistência entre a entrada do modelo e as informações inerentes à imagem. Além disso, a inovação do Multimodal Rotary Position Embedding (M-ROPE) permite que o modelo capture e integre simultaneamente informações de posição de texto 1D, visual 2D e vídeo 3D.
O modelo Qwen2-VL-7B, com 7 bilhões de parâmetros, mantém com sucesso o suporte para entrada de imagens, múltiplas imagens e vídeos, e apresenta excelente desempenho em tarefas de compreensão de documentos e compreensão de texto multilíngue de imagens.
Simultaneamente, a equipe lançou um modelo de 2 bilhões de parâmetros otimizado para implantação móvel. Apesar de seu tamanho menor, ele demonstra desempenho notável na compreensão de imagens, vídeos e idiomas múltiplos.
Links do modelo:
Qwen2-VL-2B-Instruct:https://www.modelscope.cn/models/qwen/Qwen2-VL-2B-Instruct
Qwen2-VL-7B-Instruct:https://www.modelscope.cn/models/qwen/Qwen2-VL-7B-Instruct