A Alibaba lançou recentemente um novo modelo de raciocínio multimodal chamado QVQ-72B. Construído com base no Qwen2-VL-72B, ele combina poderosas habilidades de linguagem e visão, permitindo o processamento de tarefas de raciocínio e análise mais complexas. Isso marca um novo avanço da Alibaba na área de IA multimodal.
O QVQ-72B demonstrou melhorias significativas em raciocínio visual, problemas de matemática e ciências, especialmente em tarefas de raciocínio de múltiplas etapas. Isso significa que o modelo não apenas compreende informações de texto, mas também informações de imagem, e pode resolver problemas complexos por meio de raciocínio de múltiplas etapas – algo que os modelos de IA tradicionais têm dificuldade em alcançar.

Um dos destaques do modelo é sua capacidade de combinar informações de texto e visão para deduzir relações causais em problemas de física. Por exemplo, com base em imagens de cenários físicos e descrições de texto relacionadas, ele pode deduzir as relações causais da ocorrência de eventos, demonstrando uma capacidade de compreensão mais profunda.
Em tarefas de raciocínio matemático (como álgebra e cálculo), o QVQ-72B reduziu significativamente a taxa de erro por meio de raciocínio passo a passo. Isso indica que o modelo não apenas realiza cálculos simples, mas também é capaz de raciocínio matemático complexo, fornecendo passos de solução claros. Isso oferece uma nova ferramenta para resolver problemas matemáticos complexos.

Além disso, o QVQ-72B apresenta alta precisão e eficiência na extração de informações-chave em relatórios técnicos e análises de gráficos complexos. Ele pode extrair informações-chave de documentos e gráficos complexos de forma rápida e precisa, fornecendo uma ferramenta poderosa para pesquisadores, analistas e outros profissionais.
No quesito reconhecimento de imagem, o QVQ-72B consegue identificar com precisão detalhes em imagens, como localização de objetos, cores, relações espaciais e cenários complexos. Isso significa que o modelo pode ser aplicado em cenários mais amplos, como monitoramento inteligente e direção autônoma.
Em resumo, o modelo de raciocínio multimodal QVQ-72B da Alibaba, com suas poderosas capacidades de visão, linguagem e raciocínio, oferece novas abordagens e ferramentas para resolver problemas complexos. Sua chegada impulsionará, sem dúvida, a aplicação da inteligência artificial em diversas áreas, injetando nova energia na atualização inteligente de vários setores.
Experimente online: https://huggingface.co/spaces/Qwen/QVQ-72B-preview
Detalhes: https://qwenlm.github.io/blog/qvq-72b-preview/