Em 21 de fevereiro de 2025, a equipe de internacionalização da Alibaba anunciou o lançamento em código aberto de sua nova série de modelos de linguagem de grande porte multimodais, Ovis2.
O Ovis2 é a versão mais recente da série de modelos Ovis, proposta pela equipe de internacionalização da Alibaba. Em comparação com a versão anterior 1.6, o Ovis2 apresenta melhorias significativas na construção de dados e nos métodos de treinamento. Ele não apenas reforça a densidade de capacidade de modelos de pequena escala, mas também melhora significativamente a capacidade de raciocínio em cadeia de pensamento (CoT) por meio do ajuste fino de instruções e aprendizado de preferências. Além disso, o Ovis2 introduziu a capacidade de processamento de vídeo e imagens múltiplas, e aprimorou a capacidade multilíngue e a capacidade de OCR em cenários complexos, melhorando significativamente a utilidade do modelo.
A série Ovis2 lançada em código aberto inclui seis versões: 1B, 2B, 4B, 8B, 16B e 34B. Todas as versões de parâmetros alcançaram o nível SOTA (State of the Art) em seu tamanho. Entre elas, o Ovis2-34B demonstrou desempenho excepcional no ranking OpenCompass. Na classificação de capacidade multi-modal geral, o Ovis2-34B ficou em segundo lugar entre todos os modelos de código aberto, superando muitos modelos principais de código aberto de 70B com menos da metade do tamanho de parâmetros. Na classificação de raciocínio matemático multi-modal, o Ovis2-34B ficou em primeiro lugar entre todos os modelos de código aberto, e outras versões também mostraram excelente capacidade de raciocínio. Esses resultados não apenas demonstram a eficácia da arquitetura Ovis, mas também mostram o enorme potencial da comunidade de código aberto em impulsionar o desenvolvimento de modelos de grande porte multimodais.
O design de arquitetura do Ovis2 resolve habilmente a limitação da diferença de estratégia de incorporação entre os modos. Ele é composto por três componentes principais: tokenizador visual, tabela de incorporação visual e LLM. O tokenizador visual divide a imagem de entrada em vários blocos de imagem, usa o Transformer visual para extrair recursos e, por meio da camada de cabeça visual, corresponde os recursos a "palavras visuais", obtendo tokens visuais probabilísticos. A tabela de incorporação visual armazena o vetor de incorporação correspondente a cada palavra visual, enquanto o LLM concatena o vetor de incorporação visual e o vetor de incorporação de texto para processamento e gera saída de texto, concluindo a tarefa multi-modal.
Na estratégia de treinamento, o Ovis2 adotou um método de treinamento de quatro estágios para estimular totalmente sua capacidade de compreensão multi-modal. Na primeira etapa, a maioria dos parâmetros do LLM e ViT são congelados, e o módulo visual é treinado para aprender a conversão de recursos visuais em incorporações. Na segunda etapa, a capacidade de extração de recursos do módulo visual é ainda aprimorada, melhorando a compreensão de imagens de alta resolução, capacidade multilíngue e capacidade de OCR. Na terceira etapa, os dados de legenda visual na forma de diálogo alinham a incorporação visual e o formato de diálogo do LLM. A quarta etapa é o treinamento de instruções multimodais e o aprendizado de preferências, melhorando ainda mais a capacidade do modelo de seguir as instruções do usuário e a qualidade da saída em vários modos.
Para melhorar a capacidade de compreensão de vídeo, o Ovis2 desenvolveu um algoritmo inovador de seleção de quadros-chave. Este algoritmo seleciona os quadros de vídeo mais úteis com base na correlação entre quadros e texto, na diversidade de combinação entre quadros e na sequência dos quadros. Por meio do cálculo de similaridade condicional de alta dimensão, processo pontual determinantal (DPP) e processo de decisão de Markov (MDP), o algoritmo pode selecionar quadros-chave de forma eficiente em um contexto visual limitado, melhorando assim o desempenho da compreensão de vídeo.
A série de modelos Ovis2 apresentou um desempenho particularmente notável no ranking de avaliação multi-modal OpenCompass. Modelos de diferentes tamanhos alcançaram resultados SOTA em vários benchmarks. Por exemplo, o Ovis2-34B ficou em segundo e primeiro lugar nas classificações de capacidade multi-modal geral e raciocínio matemático, respectivamente, demonstrando seu poderoso desempenho. Além disso, o Ovis2 também alcançou desempenho de ponta na classificação de compreensão de vídeo, demonstrando ainda mais suas vantagens em tarefas multimodais.
A equipe de internacionalização da Alibaba disse que o código aberto é uma força motriz crucial para o progresso da tecnologia de IA. Ao compartilhar publicamente os resultados de pesquisa do Ovis2, a equipe espera explorar conjuntamente as fronteiras dos modelos de grande porte multimodais com desenvolvedores globais e inspirar mais aplicativos inovadores. Atualmente, o código do Ovis2 já foi lançado no GitHub, o modelo pode ser obtido nas plataformas Hugging Face e Modelscope, e um demo online também está disponível para os usuários experimentarem. O artigo de pesquisa relevante também foi publicado no arXiv para referência de desenvolvedores e pesquisadores.
Código: https://github.com/AIDC-AI/Ovis
Modelo (Huggingface): https://huggingface.co/AIDC-AI/Ovis2-34B
Modelo (Modelscope): https://modelscope.cn/collections/Ovis2-1e2840cb4f7d45