O Alibaba Damo Academy lançou recentemente um modelo de linguagem grande multimodais chamado Valley2. Projetado para cenários de comércio eletrônico, ele visa melhorar o desempenho em várias áreas e expandir os limites de aplicação em comércio eletrônico e vídeos curtos por meio de uma arquitetura visual-linguística escalável. O Valley2 utiliza o Qwen2.5 como espinha dorsal do LLM, combinado com o codificador visual SigLIP-384, utilizando camadas MLP e convoluções para conversão eficiente de recursos. Sua inovação reside na introdução de um grande vocabulário visual, um adaptador de convolução (ConvAdapter) e o módulo Eagle, melhorando a flexibilidade no processamento de diversas entradas do mundo real e a eficiência de treinamento e inferência.
Os dados do Valley2 são compostos por dados no estilo OneVision, dados específicos para comércio eletrônico e vídeos curtos, e dados de raciocínio em cadeia (CoT) para resolução de problemas complexos. O processo de treinamento é dividido em quatro etapas: alinhamento texto-visual, aprendizado de conhecimento de alta qualidade, ajuste fino de instruções e pós-treinamento de raciocínio em cadeia. Em experimentos, o Valley2 apresentou desempenho excepcional em vários benchmarks públicos, obtendo pontuações particularmente altas em MMBench, MMStar e MathVista, e superando outros modelos de mesmo tamanho no benchmark Ecom-VQA.
No futuro, o Alibaba Damo Academy planeja lançar um modelo onipotente que inclua modalidades de texto, imagem, vídeo e áudio, e introduzir um método de treinamento de incorporação multimodais baseado em Valley para suportar aplicações de recuperação e detecção downstream.
O lançamento do Valley2 representa um avanço significativo na área de modelos de linguagem grandes multimodais, demonstrando a possibilidade de melhorar o desempenho do modelo por meio de melhorias de estrutura, construção de conjuntos de dados e otimização de estratégias de treinamento.
Link do Modelo:
https://www.modelscope.cn/models/bytedance-research/Valley-Eagle-7B
Link do Código:
https://github.com/bytedance/Valley
Link do Artigo:
https://arxiv.org/abs/2501.05901