Impulsionados por modelos de linguagem de grande porte multimodais (MLLMs), as tarefas relacionadas a imagens e vídeos alcançaram progressos revolucionários, incluindo perguntas e respostas visuais, geração de narrativas e edição interativa. No entanto, a compreensão de conteúdo de vídeo em grão fino ainda enfrenta grandes desafios. Esse desafio envolve segmentação em nível de pixel, rastreamento com descrições de linguagem e tarefas como perguntas e respostas visuais em prompts de vídeo específicos.

image.png

Embora os modelos de percepção de vídeo mais avançados atualmente demonstrem excelente desempenho em tarefas de segmentação e rastreamento, eles ainda apresentam deficiências em compreensão de linguagem aberta e capacidade de diálogo. Além disso, os MLLMs de vídeo têm bom desempenho em tarefas de compreensão de vídeo e perguntas e respostas, mas ainda são insuficientes no processamento de tarefas perceptivas e prompts visuais.

As soluções existentes são principalmente de dois tipos: modelos de linguagem de grande porte multimodais (MLLMs) e sistemas de segmentação por referência. Os MLLMs inicialmente se concentraram em melhorar os métodos de fusão multimodal e os extratores de recursos, evoluindo gradualmente para estruturas de ajuste fino de instruções em LLMs, como o LLaVA. Recentemente, os pesquisadores têm tentado unificar a análise de imagens, vídeos e múltiplas imagens em uma única estrutura, como o LLaVA-OneVision. Simultaneamente, os sistemas de segmentação por referência também passaram por uma transformação, de módulos de fusão básicos para integração de segmentação e rastreamento. No entanto, essas soluções ainda apresentam deficiências na integração completa das capacidades de percepção e compreensão de linguagem.

Pesquisadores da UC Merced, da equipe de sementes do ByteDance, da Universidade de Wuhan e da Universidade de Pequim propuseram o Sa2VA, um modelo unificado inovador projetado para alcançar uma compreensão fundamental densa de imagens e vídeos. O modelo suporta uma ampla gama de tarefas de imagem e vídeo por meio da minimização do ajuste fino de instruções únicas, superando as limitações dos modelos de linguagem de grande porte multimodais existentes.

O Sa2VA inova integrando o SAM-2 com o LLaVA, unificando texto, imagens e vídeos em um espaço de tokens LLM compartilhado. Além disso, os pesquisadores lançaram um amplo conjunto de dados de anotação automática chamado Ref-SAV, contendo expressões de objetos em mais de 72.000 cenários de vídeo complexos e 2.000 objetos de vídeo validados manualmente para garantir uma capacidade de benchmark robusta.

A arquitetura do Sa2VA consiste principalmente em duas partes: um modelo semelhante ao LLaVA e o SAM-2, empregando um design desacoplado inovador. O componente semelhante ao LLaVA inclui um codificador visual para processamento de imagens e vídeos, uma camada de projeção visual e um LLM para previsão de tokens de texto. O sistema emprega uma maneira única de desacoplamento, permitindo que o SAM-2 opere ao lado do modelo LLaVA pré-treinado sem troca direta de tokens, mantendo a eficiência computacional e permitindo conectividade plug-and-play com vários MLLMs pré-treinados.

Os resultados da pesquisa mostram que o Sa2VA alcançou resultados de ponta em tarefas de segmentação por referência, com seu modelo Sa2VA-8B alcançando pontuações cIoU de 81,6, 76,2 e 78,9 em RefCOCO, RefCOCO+ e RefCOCOg, respectivamente, superando sistemas anteriores como o GLaMM-7B. Em termos de capacidade de diálogo, o Sa2VA alcançou excelentes resultados de 2128, 81,6 e 75,1 em MME, MMbench e SEED-Bench, respectivamente.

Além disso, o desempenho do Sa2VA em benchmarks de vídeo também superou significativamente o VISA-13B anterior, mostrando sua eficiência e eficácia em tarefas de compreensão de imagem e vídeo.

Artigo: https://arxiv.org/abs/2501.04001

Modelo: https://huggingface.co/collections/ByteDance/sa2va-model-zoo-677e3084d71b5f108d00e093

Destaques:

🌟 Sa2VA é uma nova estrutura de IA unificada que realiza uma compreensão profunda de imagens e vídeos, superando as limitações dos modelos multimodais existentes.

📊 O modelo alcançou resultados de ponta em vários testes de referência, incluindo segmentação por referência e capacidade de diálogo, demonstrando desempenho excepcional.

🧠 O design do Sa2VA integra eficazmente as capacidades de compreensão visual e linguística por meio de um método de desacoplamento, suportando uma ampla gama de tarefas de imagem e vídeo.