A Aliyun Tongyi Qianwen lançou seu novo modelo de visão Qwen2.5-VL, disponível em três tamanhos: 3B, 7B e 72B.

A versão principal, Qwen2.5-VL-72B, conquistou o primeiro lugar em 13 avaliações de autoridade em compreensão visual, superando o GPT-4o e o Claude3.5. A Aliyun afirma que o novo Qwen2.5-VL analisa o conteúdo de imagens com maior precisão e, inovadoramente, suporta a compreensão de vídeos com mais de 1 hora de duração. O modelo consegue pesquisar eventos específicos em vídeos e resumir os pontos principais de diferentes períodos, ajudando os usuários a extrair informações-chave de forma rápida e eficiente.

Aliyun Tongyi lança Qwen2.5-VL: IA visual mais poderosa, superando GPT-4o

Além disso, o Qwen2.5-VL, sem necessidade de ajuste fino, pode se transformar em um agente de IA visual inteligente (Visual Agents) capaz de controlar celulares e computadores, realizando operações complexas em múltiplas etapas, como enviar mensagens de felicitações a amigos específicos, editar fotos no computador e reservar passagens aéreas pelo celular. O Qwen2.5-VL não apenas identifica objetos comuns, como flores, pássaros, peixes e insetos, mas também analisa texto, gráficos, ícones, figuras e layouts em imagens. A Aliyun também aprimorou a capacidade de reconhecimento OCR do Qwen2.5-VL, melhorando o reconhecimento e localização de texto em múltiplos cenários, idiomas e orientações.

Aliyun Tongyi lança Qwen2.5-VL: IA visual mais poderosa, superando GPT-4o

Simultaneamente, a capacidade de extração de informações foi significativamente aprimorada para atender às crescentes demandas de digitalização e inteligência em áreas como auditoria de qualificação e negócios financeiros.

Destaques:

 🌟 A Aliyun Tongyi Qianwen lançou o Qwen2.5-VL, em três versões: 3B, 7B e 72B. 

📈 O Qwen2.5-VL-72B superou o GPT-4o e o Claude3.5 em avaliações de compreensão visual. 

👀 O Qwen2.5-VL suporta a compreensão de vídeos com mais de 1 hora de duração e possui capacidade aprimorada de reconhecimento OCR.