Qwen2-VL-72B
Modelo de linguagem visual mais recente, com suporte para compreensão multilíngue e multimodal.
Produto ComumImagemCompreensão VisualPerguntas e Respostas em Vídeo
O Qwen2-VL-72B é a mais recente iteração do modelo Qwen-VL, representando os resultados inovadores do último ano. Este modelo alcançou o desempenho mais recente em benchmarks de compreensão visual, incluindo MathVista, DocVQA, RealWorldQA e MTVQA. Ele consegue compreender vídeos com mais de 20 minutos de duração e pode ser integrado a dispositivos como telefones e robôs para executar operações automáticas com base no ambiente visual e instruções de texto. Além do inglês e chinês, o Qwen2-VL agora também suporta a compreensão de texto em diferentes idiomas presentes em imagens, incluindo a maioria das línguas europeias, japonês, coreano, árabe e vietnamita. As atualizações da arquitetura do modelo incluem Naive Dynamic Resolution e Multimodal Rotary Position Embedding (M-ROPE), que melhoram sua capacidade de processamento multimodal.
Qwen2-VL-72B Situação do Tráfego Mais Recente
Total de Visitas Mensais
29742941
Taxa de Rejeição
44.20%
Média de Páginas por Visita
5.9
Duração Média da Visita
00:04:44