Alibaba lança o modelo de raciocínio multimodal QVQ-72B! Aprimoramento de habilidades visuais e de linguagem, resolvendo problemas complexos com facilidade

AIbase基地

Publicado emNotícias e Informações de IA · 4 minutos de leitura · Dec 25, 2024

609

A Alibaba lançou recentemente um novo modelo de raciocínio multimodal chamado QVQ-72B. Construído com base no Qwen2-VL-72B, ele combina poderosas habilidades de linguagem e visão, permitindo o processamento de tarefas de raciocínio e análise mais complexas. Isso marca um novo avanço da Alibaba na área de IA multimodal.

O QVQ-72B demonstrou melhorias significativas em raciocínio visual, problemas de matemática e ciências, especialmente em tarefas de raciocínio de múltiplas etapas. Isso significa que o modelo não apenas compreende informações de texto, mas também informações de imagem, e pode resolver problemas complexos por meio de raciocínio de múltiplas etapas – algo que os modelos de IA tradicionais têm dificuldade em alcançar.

Um dos destaques do modelo é sua capacidade de combinar informações de texto e visão para deduzir relações causais em problemas de física. Por exemplo, com base em imagens de cenários físicos e descrições de texto relacionadas, ele pode deduzir as relações causais da ocorrência de eventos, demonstrando uma capacidade de compreensão mais profunda.

Em tarefas de raciocínio matemático (como álgebra e cálculo), o QVQ-72B reduziu significativamente a taxa de erro por meio de raciocínio passo a passo. Isso indica que o modelo não apenas realiza cálculos simples, mas também é capaz de raciocínio matemático complexo, fornecendo passos de solução claros. Isso oferece uma nova ferramenta para resolver problemas matemáticos complexos.

Além disso, o QVQ-72B apresenta alta precisão e eficiência na extração de informações-chave em relatórios técnicos e análises de gráficos complexos. Ele pode extrair informações-chave de documentos e gráficos complexos de forma rápida e precisa, fornecendo uma ferramenta poderosa para pesquisadores, analistas e outros profissionais.

No quesito reconhecimento de imagem, o QVQ-72B consegue identificar com precisão detalhes em imagens, como localização de objetos, cores, relações espaciais e cenários complexos. Isso significa que o modelo pode ser aplicado em cenários mais amplos, como monitoramento inteligente e direção autônoma.

Em resumo, o modelo de raciocínio multimodal QVQ-72B da Alibaba, com suas poderosas capacidades de visão, linguagem e raciocínio, oferece novas abordagens e ferramentas para resolver problemas complexos. Sua chegada impulsionará, sem dúvida, a aplicação da inteligência artificial em diversas áreas, injetando nova energia na atualização inteligente de vários setores.

Experimente online: https://huggingface.co/spaces/Qwen/QVQ-72B-preview

Detalhes: https://qwenlm.github.io/blog/qvq-72b-preview/

QVQ-72B Qwen2-VL-72B IA multimodal Modelo de raciocínio

Este artigo é do AIbase Daily

Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.

—— Criado pelo Grupo AIbase Daily

Notícias de IA Relacionadas Recomendadas

Boletim Diário de IA: ByteDance lança o modelo de raciocínio profundo Doubao 1.5; WeChat lança o primeiro assistente de IA, Yuanbao; OpenAI lança o4-mini e o3 com capacidade total

Bem-vindo à seção 【Boletim Diário de IA】! Aqui você encontrará seu guia diário para explorar o mundo da inteligência artificial. Todos os dias, apresentamos os destaques do campo da IA, focando em desenvolvedores e ajudando você a entender as tendências tecnológicas e os aplicativos inovadores de produtos de IA. Saiba mais sobre novos produtos de IA clicando aqui: https://top.aibase.com/1、OpenAI lança dois modelos de raciocínio multimodal o4-mini e o3 com capacidade totalA OpenAI lançou seus mais novos modelos multimodais o4-mini e o3 com capacidade total em uma transmissão técnica,

Apr 17, 2025

330

ByteDance lança o modelo de raciocínio profundo Doubao 1.5: raciocínio profundo multimodal, baixa latência

Apr 17, 2025

Novo sistema da OpenAI bloqueia informações sobre riscos biológicos e químicos para garantir a segurança da IA

A OpenAI lançou recentemente um novo sistema projetado para monitorar seus mais recentes modelos de raciocínio de IA, o3 e o4-mini, a fim de bloquear prompts relacionados a ameaças biológicas e químicas. O objetivo do sistema é impedir que os modelos forneçam conselhos que possam incitar outros a realizar ataques prejudiciais, garantindo a segurança da IA. A OpenAI afirma que o o3 e o o4-mini têm capacidades significativamente aprimoradas em comparação com modelos anteriores, o que pode representar novos riscos nas mãos de usuários maliciosos. De acordo com os testes internos da OpenAI, o o3

Apr 17, 2025

Volcano Engine lança o modelo de raciocínio profundo Doubao 1.5: combinando compreensão visual e gerenciamento inteligente de projetos

No recente evento Volcano Engine FORCE LINK AI Innovation Tour, o presidente da Volcano Engine, Tan Dai, anunciou oficialmente o modelo de raciocínio profundo Doubao 1.5, marcando o lançamento oficial deste serviço de tecnologia inovadora para empresas. O Doubao 1.5 não apenas aprimora os recursos básicos, mas também introduz cenários de aplicação mais inteligentes, auxiliando as empresas a alcançar uma transformação digital mais eficiente. Tan Dai afirmou na apresentação que o modelo de raciocínio profundo Doubao 1.5 pode combinar a compreensão visual para fornecer mais recursos inovadores. Por exemplo, o modelo pode, com base nas imagens enviadas pelo usuário...

Apr 17, 2025

OpenAI lança novo modelo de raciocínio o3 com capacidade de pensamento de imagem

A OpenAI lançou recentemente seus mais novos modelos de raciocínio, o o3 e o o4-mini, marcando um grande avanço no campo da inteligência artificial. Esses dois modelos não apenas superam as versões anteriores em capacidade de raciocínio, mas também alcançam, pela primeira vez, a capacidade de pensamento de imagem, podendo integrar diretamente informações visuais no processo de pensamento. O o3 é considerado um modelo de "nível gênio", especialmente em tarefas de programação e matemática, com uma taxa de precisão de 87,5%. Os modelos o3 e o4-mini recém-lançados apresentam excelente desempenho em processamento multimodal, possuindo

Apr 17, 2025

Estrela Salto lança novo modelo de raciocínio multimodal - Step-R1-V-Mini

A equipe de tecnologia Estrela Salto anunciou o lançamento oficial de seu novo modelo de raciocínio multimodal, o Step-R1-V-Mini. O lançamento deste modelo representa um novo avanço no campo da inferência multi-modal colaborativa, injetando nova vitalidade no desenvolvimento da tecnologia de IA. O Step-R1-V-Mini suporta entrada de imagem e texto e saída de texto, possui boa capacidade de seguir instruções e generalidade, podendo perceber imagens com alta precisão e concluir tarefas de raciocínio complexas.

Apr 9, 2025

Boletim Diário de IA: Novo modelo de raciocínio visual QVQ-Max da Alibaba; novo recurso de efeitos sonoros de IA da Ke Ling AI; desempenho do GPT-4o dispara após atualização; Midjourney V7 a ser lançado na próxima semana;

Bem-vindo à seção "Boletim Diário de IA"! Aqui está seu guia diário para explorar o mundo da inteligência artificial. Todos os dias, apresentamos os destaques do campo da IA, focando em desenvolvedores e ajudando você a entender as tendências tecnológicas e os aplicativos inovadores de produtos de IA. Saiba mais sobre novos produtos de IA: https://top.aibase.com/1、A Alibaba lança o novo modelo de raciocínio visual QVQ-Max A equipe de pesquisa de IA da Alibaba, Qwen, lançou seu mais novo modelo de raciocínio visual, o QVQ-Max. Apesar da intensificação da competição tecnológica entre EUA e China

Mar 28, 2025

120

Mureka O1: O primeiro grande modelo de raciocínio musical do mundo é lançado, marcando uma nova era na criação de música com IA

Apresentamos o Mureka O1, o primeiro grande modelo de raciocínio musical do mundo. Esta inovação revolucionária impulsiona a criação de música com IA para um novo nível, abrindo possibilidades ilimitadas para compositores e artistas.

Mar 26, 2025

Boletim Diário de IA: Novo modelo de geração de imagens da OpenAI permite edição de imagens com uma frase; receita da Co-AI ultrapassa US$ 100 milhões; Google lança o poderoso modelo de raciocínio Gemini 2.5

Bem-vindo ao boletim diário de IA! Aqui você encontrará seu guia diário para explorar o mundo da inteligência artificial. Todos os dias, apresentamos os principais tópicos do campo da IA, focando em desenvolvedores e ajudando você a entender as tendências tecnológicas e os aplicativos de produtos de IA inovadores. Saiba mais sobre novos produtos de IA: https://top.aibase.com/1、A OpenAI lança um novo modelo de geração de imagens, desafiando o Google na edição de imagens com uma frase. A OpenAI lançou recentemente seu mais recente modelo GPT-4o, que integra um gerador de imagens avançado, mostrando...

Mar 26, 2025

Boletim Diário de IA: OpenAI lança a API o1-pro mais cara da história; Tencent lança novo modelo de raciocínio Huanyu T1; Modelo de vídeo Step-Video-TI2V da Jieyue Xingchen é de código aberto

Bem-vindo ao boletim diário de IA! Aqui você encontrará seu guia diário para explorar o mundo da inteligência artificial. A cada dia, apresentamos os destaques do campo da IA, focando em desenvolvedores e ajudando você a entender as tendências tecnológicas e os aplicativos de produtos de IA inovadores. Para saber mais sobre novos produtos de IA, clique aqui: https://top.aibase.com/1. O mais caro! Os usuários podem chamar o assistente Gemini diretamente por meio do ícone na interface frontal, desfrutando de atalhos personalizados e suporte para ícones da bandeja do sistema, embora o modo de fixação na barra lateral não seja suportado no momento.

Mar 20, 2025

Notícias de IA

IA Diário

Linha do Tempo da IA

Al hardware

Casos Recentes

Coleção de Imagens

Coleção de Vídeos

Coleção de Áudios

Coleção de Conteúdo

Tutoriais Recentes

Ranking de Produtos de IA

Ranking de Crescimento de Tráfego de IA

Ranking de Queda de Tráfego de IA

Ranking Semanal de IA

Estados Unidos

China

Índia

Brasil

Geração de Imagens

Assistente Pessoal

Geração de Personagens

Geração de Vídeos

Ranking de Projetos de IA

Ranking de Crescimento de Projetos de IA

Ranking de Desenvolvedores de IA

Ranking de Organizações de IA

Deepseek

TTS

LLM

ChatGPT

Visão Geral

Alibaba lança o modelo de raciocínio multimodal QVQ-72B! Aprimoramento de habilidades visuais e de linguagem, resolvendo problemas complexos com facilidade

AIbase基地

Este artigo é do AIbase Daily

Notícias de IA Relacionadas Recomendadas

Boletim Diário de IA: ByteDance lança o modelo de raciocínio profundo Doubao 1.5; WeChat lança o primeiro assistente de IA, Yuanbao; OpenAI lança o4-mini e o3 com capacidade total

ByteDance lança o modelo de raciocínio profundo Doubao 1.5: raciocínio profundo multimodal, baixa latência

Novo sistema da OpenAI bloqueia informações sobre riscos biológicos e químicos para garantir a segurança da IA

Volcano Engine lança o modelo de raciocínio profundo Doubao 1.5: combinando compreensão visual e gerenciamento inteligente de projetos

OpenAI lança novo modelo de raciocínio o3 com capacidade de pensamento de imagem

Estrela Salto lança novo modelo de raciocínio multimodal - Step-R1-V-Mini

Boletim Diário de IA: Novo modelo de raciocínio visual QVQ-Max da Alibaba; novo recurso de efeitos sonoros de IA da Ke Ling AI; desempenho do GPT-4o dispara após atualização; Midjourney V7 a ser lançado na próxima semana;

Mureka O1: O primeiro grande modelo de raciocínio musical do mundo é lançado, marcando uma nova era na criação de música com IA

Boletim Diário de IA: Novo modelo de geração de imagens da OpenAI permite edição de imagens com uma frase; receita da Co-AI ultrapassa US$ 100 milhões; Google lança o poderoso modelo de raciocínio Gemini 2.5

Boletim Diário de IA: OpenAI lança a API o1-pro mais cara da história; Tencent lança novo modelo de raciocínio Huanyu T1; Modelo de vídeo Step-Video-TI2V da Jieyue Xingchen é de código aberto