Qwen2.5-VL de código aberto da Alibaba Cloud: IA visual supera o Claude 3.5

AIbase基地

Publicado emNotícias e Informações de IA · 3 minutos de leitura · Jan 29, 2025

417

A Aliyun Tongyi Qianwen lançou seu novo modelo de visão Qwen2.5-VL, disponível em três tamanhos: 3B, 7B e 72B.

A versão principal, Qwen2.5-VL-72B, conquistou o primeiro lugar em 13 avaliações de autoridade em compreensão visual, superando o GPT-4o e o Claude3.5. A Aliyun afirma que o novo Qwen2.5-VL analisa o conteúdo de imagens com maior precisão e, inovadoramente, suporta a compreensão de vídeos com mais de 1 hora de duração. O modelo consegue pesquisar eventos específicos em vídeos e resumir os pontos principais de diferentes períodos, ajudando os usuários a extrair informações-chave de forma rápida e eficiente.

Aliyun Tongyi lança Qwen2.5-VL: IA visual mais poderosa, superando GPT-4o

Além disso, o Qwen2.5-VL, sem necessidade de ajuste fino, pode se transformar em um agente de IA visual inteligente (Visual Agents) capaz de controlar celulares e computadores, realizando operações complexas em múltiplas etapas, como enviar mensagens de felicitações a amigos específicos, editar fotos no computador e reservar passagens aéreas pelo celular. O Qwen2.5-VL não apenas identifica objetos comuns, como flores, pássaros, peixes e insetos, mas também analisa texto, gráficos, ícones, figuras e layouts em imagens. A Aliyun também aprimorou a capacidade de reconhecimento OCR do Qwen2.5-VL, melhorando o reconhecimento e localização de texto em múltiplos cenários, idiomas e orientações.

Aliyun Tongyi lança Qwen2.5-VL: IA visual mais poderosa, superando GPT-4o

Simultaneamente, a capacidade de extração de informações foi significativamente aprimorada para atender às crescentes demandas de digitalização e inteligência em áreas como auditoria de qualificação e negócios financeiros.

Destaques:
🌟 A Aliyun Tongyi Qianwen lançou o Qwen2.5-VL, em três versões: 3B, 7B e 72B.
📈 O Qwen2.5-VL-72B superou o GPT-4o e o Claude3.5 em avaliações de compreensão visual.
👀 O Qwen2.5-VL suporta a compreensão de vídeos com mais de 1 hora de duração e possui capacidade aprimorada de reconhecimento OCR.

Vice-presidente do TikTok esclarece rumores sobre guerra de preços de modelos de IA: redução de custos por meio de inovação tecnológica

Hoje, Li Liang, vice-presidente do TikTok, comentou sobre os rumores de que a ByteDance estaria iniciando uma guerra de preços de modelos de IA. Em uma publicação nas redes sociais, ele deixou claro que não se trata de uma guerra de preços, mas sim de reduzir o custo de uso de modelos de IA por meio de inovação tecnológica. De acordo com informações, na conferência Volcano Engine Force, a ByteDance lançou oficialmente o modelo de compreensão visual Doubao e anunciou seu preço de 0,003 yuan para mil tokens de entrada, 85% mais barato que a média do setor. Em resposta aos rumores de que a ByteDance estaria iniciando outra guerra de preços de modelos de IA, Li Liang, vice-presidente do TikTok, publicou uma mensagem...

Família de modelos de linguagem grandes Doubao totalmente atualizada, lançando modelos de compreensão visual e modelo de música 4.0

Na conferência Volcano Engine FORCE de 18 de dezembro de 2024, a Volcano Engine anunciou uma atualização completa da família de modelos de linguagem grandes Doubao e lançou o novo modelo de compreensão visual. O presidente da Volcano Engine, Tan Dai, disse que o uso diário de tokens do modelo de linguagem grande Doubao cresceu rapidamente nos últimos meses, atingindo mais de 4 trilhões, um aumento de 33 vezes em comparação com o lançamento em maio. Essa tendência de crescimento mostra o amplo uso do modelo de linguagem grande Doubao em vários cenários de aplicação. Desta vez, a Volcano Engine lançou o modelo de compreensão visual,

ByteDance lança o modelo de raciocínio visual Doubao: preços a partir de R$ 0,003/mil tokens

Em 18 de dezembro, na conferência Volcano Engine FORCE, o presidente da Volcano Engine, Tan Dai, lançou o novo modelo de compreensão visual Doubao. O modelo processa simultaneamente informações de texto e imagem, fornecendo respostas mais precisas. O novo modelo apresenta excelente desempenho em reconhecimento, compreensão e raciocínio de conteúdo, além de uma capacidade de descrição visual mais detalhada, oferecendo aos usuários corporativos uma capacidade de processamento inteligente aprimorada. Tan Dai revelou na conferência que o modelo de compreensão visual Doubao não apenas alcançou avanços tecnológicos significativos, mas também reduziu drasticamente os preços.

Salesforce lança o modelo de IA multimodal de código aberto xGen-MM para aprimorar a compreensão visual

A Salesforce lançou um modelo de IA multimodal de código aberto chamado xGen-MM, projetado para entender e gerar simultaneamente vários tipos de dados, como texto e imagens, mudando significativamente a maneira como a IA é pesquisada e aplicada. O modelo se destaca em vários testes de referência, apresentando um desempenho competitivo em comparação com modelos de código aberto semelhantes. Ele inclui modelos pré-treinados, conjuntos de dados e código de ajuste fino. O maior modelo possui 4 bilhões de parâmetros e pode lidar com "dados entrelaçados", permitindo a execução de várias tarefas, como responder simultaneamente a perguntas sobre várias imagens. A variedade de opções de modelos reflete a capacidade da IA de