Com o rápido desenvolvimento da inteligência artificial, a integração da visão e da linguagem levou a avanços inovadores em modelos de linguagem visual (VLMs). Esses modelos são projetados para processar e entender simultaneamente dados visuais e de texto, sendo amplamente aplicados em cenários como descrição de imagens, perguntas e respostas visuais, reconhecimento óptico de caracteres e análise de conteúdo multimodal.

Os VLMs desempenham um papel importante no desenvolvimento de sistemas autônomos, na melhoria da interação humano-computador e na criação de ferramentas eficientes de processamento de documentos, preenchendo com sucesso a lacuna entre esses dois tipos de dados. No entanto, ainda existem muitos desafios no processamento de dados visuais de alta resolução e entradas de texto diversificadas.

Pesquisas recentes resolveram parcialmente essas limitações, mas a maioria dos modelos utiliza codificadores visuais estáticos que carecem de adaptabilidade em alta resolução e tamanhos de entrada variáveis. Além disso, a combinação de modelos de linguagem pré-treinados com codificadores visuais costuma ser ineficiente, pois não são otimizados para tarefas multimodais. Embora alguns modelos tenham introduzido técnicas de computação esparsa para gerenciar a complexidade, a precisão em diferentes conjuntos de dados ainda é insuficiente. Além disso, os conjuntos de dados de treinamento dos modelos existentes geralmente carecem de diversidade e especificidade de tarefa, o que limita ainda mais seu desempenho. Por exemplo, muitos modelos apresentam desempenho ruim em tarefas especializadas, como interpretação de gráficos ou análise de documentos densos.

Recentemente, a DeepSeek-AI lançou a nova série de modelos de linguagem visual abertos DeepSeek-VL2, baseados em especialistas mistos (MoE). Esta série de modelos combina tecnologias inovadoras, incluindo fatiamento dinâmico de codificação visual, mecanismo de atenção latente multi-cabeça e a estrutura DeepSeek-MoE.

image.png

A série DeepSeek-VL2 oferece três configurações de parâmetros diferentes:

- DeepSeek-VL2-Tiny: 3,37 bilhões de parâmetros (1 bilhão de parâmetros de ativação)

- DeepSeek-VL2-Small: 16,1 bilhões de parâmetros (2,8 bilhões de parâmetros de ativação)

- DeepSeek-VL2: 27,5 bilhões de parâmetros (4,5 bilhões de parâmetros de ativação)

Essa escalabilidade garante sua adaptação a diferentes necessidades de aplicação e orçamentos computacionais.

A arquitetura do DeepSeek-VL2 visa otimizar o desempenho, reduzindo simultaneamente a demanda computacional. O método de fatiamento dinâmico garante que o processamento de imagens de alta resolução não perca detalhes cruciais, sendo ideal para tarefas de análise de documentos e localização visual. Além disso, o mecanismo de atenção latente multi-cabeça permite que o modelo processe eficientemente grandes quantidades de dados de texto, reduzindo a sobrecarga computacional geralmente associada ao processamento de entradas de linguagem densas. O treinamento do DeepSeek-VL2 abrange conjuntos de dados multimodais diversos, resultando em desempenho excepcional em várias tarefas, como reconhecimento óptico de caracteres, perguntas e respostas visuais e interpretação de gráficos.

image.png

De acordo com os testes de desempenho, a configuração Small atingiu uma precisão de 92,3% na tarefa de reconhecimento óptico de caracteres, superando significativamente os modelos existentes. Nos testes de benchmark de localização visual, o modelo apresentou uma melhoria de 15% na precisão em comparação com seus antecessores.

Simultaneamente, o DeepSeek-VL2 mantém a precisão de ponta, reduzindo a necessidade de recursos computacionais em 30%. Esses resultados demonstram a superioridade do modelo no processamento de imagens de alta resolução e texto.

Link do projeto: https://huggingface.co/collections/deepseek-ai/deepseek-vl2-675c22accc456d3beb4613ab

Destaques:

🌟 A série DeepSeek-VL2 oferece várias configurações de parâmetros, adaptando-se a diferentes necessidades de aplicação.

💡 A tecnologia de fatiamento dinâmico aumenta a eficiência do processamento de imagens de alta resolução, ideal para análise de documentos complexos.

🔍 O modelo apresenta excelente desempenho em tarefas de reconhecimento óptico de caracteres e localização visual, com aumento significativo na precisão.