Recentemente, uma equipe de pesquisa da Universidade de Pequim e outras instituições anunciou o lançamento de um modelo multimodal de código aberto chamado LLaVA-o1. Afirma-se que este é o primeiro modelo de linguagem visual capaz de realizar raciocínio espontâneo e sistemático, comparável ao GPT-o1.

O modelo apresentou desempenho excepcional em seis benchmarks multimodais desafiadores. Sua versão com 11 bilhões de parâmetros superou outros concorrentes, como Gemini-1.5-pro, GPT-4o-mini e Llama-3.2-90B-Vision-Instruct.

image.png

LLaVA-o1 é baseado no modelo Llama-3.2-Vision e emprega um mecanismo de raciocínio de "pensamento lento", permitindo-lhe conduzir processos de raciocínio mais complexos e superando os métodos tradicionais de prompt de cadeia de pensamento.

Em testes de benchmark de raciocínio multimodal, o LLaVA-o1 superou seu modelo base em 8,9%. A singularidade do modelo reside em seu processo de raciocínio dividido em quatro etapas: resumo, interpretação visual, raciocínio lógico e geração de conclusão. Em modelos tradicionais, o processo de raciocínio costuma ser mais simples, levando a respostas incorretas. O LLaVA-o1, por meio de um raciocínio estruturado em várias etapas, garante uma saída mais precisa.

Por exemplo, ao resolver o problema "Subtraia todas as pequenas bolas brilhantes e os objetos roxos, quantos objetos restam?", o LLaVA-o1 primeiro resume o problema, extrai informações da imagem e, em seguida, realiza um raciocínio passo a passo para fornecer a resposta final. Este método em etapas melhora a capacidade de raciocínio sistemático do modelo, tornando-o mais eficiente no tratamento de problemas complexos.

image.png

Vale ressaltar que o LLaVA-o1 introduziu um método de busca em feixe de nível de etapa em seu processo de raciocínio. Este método permite que o modelo gere várias respostas candidatas em cada etapa de raciocínio e selecione a melhor resposta para prosseguir para a próxima etapa, melhorando significativamente a qualidade geral do raciocínio. Através do ajuste fino supervisionado e dados de treinamento razoáveis, o LLaVA-o1 apresentou um desempenho excelente em comparação com modelos maiores ou de código fechado.

Os resultados de pesquisa da equipe da Universidade de Pequim não apenas impulsionam o desenvolvimento da IA multimodal, mas também fornecem novas ideias e métodos para futuros modelos de compreensão de linguagem visual. A equipe afirma que o código, os pesos pré-treinados e o conjunto de dados do LLaVA-o1 serão totalmente de código aberto, esperando que mais pesquisadores e desenvolvedores possam explorar e aplicar este modelo inovador.

Artigo: https://arxiv.org/abs/2411.10440

GitHub: https://github.com/PKU-YuanGroup/LLaVA-o1

Destaques:

🌟 LLaVA-o1 é um novo modelo de raciocínio multimodal lançado pela equipe da Universidade de Pequim e outras instituições, com capacidade de raciocínio de "pensamento lento".

📈 O modelo superou o desempenho do modelo base em 8,9% nos testes de benchmark de raciocínio multimodal.

🔍 O LLaVA-o1 garante precisão por meio de um raciocínio estruturado em várias etapas e será de código aberto em breve.