A equipe Qwen anunciou recentemente a disponibilização em código aberto de seu mais recente modelo de raciocínio multimodal, o QVQ, marcando um passo importante para a inteligência artificial na compreensão visual e na capacidade de resolução de problemas complexos. Este modelo, baseado no Qwen2-VL-72B, visa melhorar a capacidade de raciocínio da IA combinando informações linguísticas e visuais. No teste MMMU, o QVQ obteve uma alta pontuação de 70,3 e mostrou uma melhoria significativa de desempenho em vários testes de referência relacionados à matemática em comparação com o Qwen2-VL-72B-Instruct.
O modelo QVQ demonstrou vantagens particulares em tarefas de raciocínio visual, especialmente em áreas que exigem pensamento analítico complexo. Embora o QVQ-72B-Preview tenha apresentado um desempenho excelente, a equipe também apontou algumas limitações do modelo, incluindo problemas de mistura de idiomas e troca de código, a possibilidade de cair em padrões de lógica circular, considerações de segurança e ética, e limitações de desempenho e referência. A equipe enfatizou que, apesar das melhorias no raciocínio visual, o modelo não substitui completamente as capacidades do Qwen2-VL-72B; em processos de raciocínio visual de múltiplas etapas, o modelo pode gradualmente perder o foco no conteúdo da imagem, levando a alucinações.
A equipe Qwen avaliou o QVQ-72B-Preview em quatro conjuntos de dados: MMMU, MathVista, MathVision e OlympiadBench. Esses conjuntos de dados visam testar a capacidade do modelo de compreensão e raciocínio abrangentes relacionados à visão. O QVQ-72B-Preview apresentou um desempenho excelente nesses testes de referência, reduzindo efetivamente a diferença em relação aos modelos líderes.
Para demonstrar ainda mais as aplicações do modelo QVQ em tarefas de raciocínio visual, a equipe Qwen forneceu vários exemplos e compartilhou um link para o blog técnico. Além disso, a equipe forneceu exemplos de código de raciocínio do modelo e como usar a API-Inference do MoDeL para chamar diretamente o modelo QVQ-72B-Preview. A API-Inference da plataforma MoDeL oferece suporte ao modelo QVQ-72B-Preview, permitindo que os usuários o utilizem diretamente por meio de chamadas de API.
Link do modelo:
https://modelscope.cn/models/Qwen/QVQ-72B-Preview
Link de experiência:
https://modelscope.cn/studios/Qwen/QVQ-72B-preview
Blog (em chinês):
https://qwenlm.github.io/zh/blog/qvq-72b-preview