O Alibaba Damo Academy lançou recentemente um modelo de linguagem grande multimodais chamado Valley2. Projetado para cenários de comércio eletrônico, ele visa melhorar o desempenho em várias áreas e expandir os limites de aplicação em comércio eletrônico e vídeos curtos por meio de uma arquitetura visual-linguística escalável. O Valley2 utiliza o Qwen2.5 como espinha dorsal do LLM, combinado com o codificador visual SigLIP-384, utilizando camadas MLP e convoluções para conversão eficiente de recursos. Sua inovação reside na introdução de um grande vocabulário visual, um adaptador de convolução (ConvAdapter) e o módulo Eagle, melhorando a flexibilidade no processamento de diversas entradas do mundo real e a eficiência de treinamento e inferência.

微信截图_20250115084005.png

Os dados do Valley2 são compostos por dados no estilo OneVision, dados específicos para comércio eletrônico e vídeos curtos, e dados de raciocínio em cadeia (CoT) para resolução de problemas complexos. O processo de treinamento é dividido em quatro etapas: alinhamento texto-visual, aprendizado de conhecimento de alta qualidade, ajuste fino de instruções e pós-treinamento de raciocínio em cadeia. Em experimentos, o Valley2 apresentou desempenho excepcional em vários benchmarks públicos, obtendo pontuações particularmente altas em MMBench, MMStar e MathVista, e superando outros modelos de mesmo tamanho no benchmark Ecom-VQA.

No futuro, o Alibaba Damo Academy planeja lançar um modelo onipotente que inclua modalidades de texto, imagem, vídeo e áudio, e introduzir um método de treinamento de incorporação multimodais baseado em Valley para suportar aplicações de recuperação e detecção downstream.

O lançamento do Valley2 representa um avanço significativo na área de modelos de linguagem grandes multimodais, demonstrando a possibilidade de melhorar o desempenho do modelo por meio de melhorias de estrutura, construção de conjuntos de dados e otimização de estratégias de treinamento.

Link do Modelo:

https://www.modelscope.cn/models/bytedance-research/Valley-Eagle-7B

Link do Código:

https://github.com/bytedance/Valley

Link do Artigo:

https://arxiv.org/abs/2501.05901