Impulsados por los modelos lingüísticos de gran tamaño multimodales (MLLM), las tareas relacionadas con imágenes y videos han experimentado avances revolucionarios, incluyendo la respuesta a preguntas visuales, la generación de narrativas y la edición interactiva. Sin embargo, lograr una comprensión de contenido de video de grano fino sigue siendo un desafío importante. Este desafío implica tareas como la segmentación a nivel de píxel, el seguimiento con descripciones lingüísticas y la respuesta a preguntas visuales sobre indicaciones de video específicas.

image.png

Aunque los modelos de percepción de video más avanzados actualmente muestran un excelente rendimiento en tareas de segmentación y seguimiento, aún presentan deficiencias en la comprensión del lenguaje abierto y las capacidades de diálogo. Además, los MLLM de video muestran un buen rendimiento en tareas de comprensión de video y respuesta a preguntas, pero siguen teniendo dificultades para manejar tareas perceptivas e indicaciones visuales.

Las soluciones existentes se dividen principalmente en dos categorías: modelos lingüísticos de gran tamaño multimodales (MLLM) y sistemas de segmentación por referencia. Los MLLM inicialmente se centraron en mejorar los métodos de fusión multimodal y los extractores de características, evolucionando gradualmente hacia marcos de ajuste de instrucciones en LLMs, como LLaVA. Recientemente, los investigadores han intentado unificar el análisis de imágenes, videos y múltiples imágenes en un solo marco, como LLaVA-OneVision. Simultáneamente, los sistemas de segmentación por referencia también han evolucionado desde módulos de fusión básicos hasta la integración de segmentación y seguimiento. Sin embargo, estas soluciones aún presentan deficiencias en la integración completa de las capacidades de percepción y comprensión del lenguaje.

Investigadores de UC Merced, el equipo semilla de ByteDance, la Universidad de Wuhan y la Universidad de Pekín presentan Sa2VA, un modelo unificado pionero diseñado para lograr una comprensión fundamental densa de imágenes y videos. Este modelo admite una amplia gama de tareas de imágenes y videos mediante la minimización del ajuste fino de instrucciones únicas, superando las limitaciones de los modelos lingüísticos de gran tamaño multimodales existentes.

Sa2VA integra innovadoramente SAM-2 con LLaVA, unificando texto, imágenes y videos en un espacio de tokens LLM compartido. Además, los investigadores han lanzado un amplio conjunto de datos de anotación automática llamado Ref-SAV, que contiene expresiones de objetos en más de 72.000 escenas de video complejas y 2.000 objetos de video verificados manualmente para asegurar una capacidad de referencia robusta.

La arquitectura de Sa2VA se compone principalmente de dos partes: un modelo similar a LLaVA y SAM-2, utilizando un diseño desacoplado novedoso. El componente similar a LLaVA incluye un codificador visual para procesar imágenes y videos, una capa de proyección visual y un LLM para la predicción de tokens de texto. El sistema emplea un método de desacoplamiento único que permite que SAM-2 opere junto al modelo LLaVA preentrenado sin intercambio directo de tokens, manteniendo así la eficiencia computacional y permitiendo la conectividad plug-and-play con varios MLLM preentrenados.

Los resultados de la investigación muestran que Sa2VA ha logrado resultados de vanguardia en tareas de segmentación por referencia, con su modelo Sa2VA-8B alcanzando puntuaciones cIoU de 81.6, 76.2 y 78.9 en RefCOCO, RefCOCO+ y RefCOCOg, respectivamente, superando a sistemas anteriores como GLaMM-7B. En cuanto a la capacidad de diálogo, Sa2VA obtuvo excelentes resultados de 2128, 81.6 y 75.1 en MME, MMbench y SEED-Bench, respectivamente.

Además, el rendimiento de Sa2VA en las pruebas de referencia de video superó significativamente al anterior estado del arte VISA-13B, mostrando su eficiencia y eficacia en tareas de comprensión de imágenes y videos.

Artículo: https://arxiv.org/abs/2501.04001

Modelo: https://huggingface.co/collections/ByteDance/sa2va-model-zoo-677e3084d71b5f108d00e093

Puntos clave:

🌟 Sa2VA es un novedoso marco de IA unificado que logra una comprensión profunda de imágenes y videos, superando las limitaciones de los modelos multimodales existentes.

📊 Este modelo ha logrado resultados de vanguardia en varias pruebas de referencia, incluyendo la segmentación por referencia y la capacidad de diálogo, demostrando un rendimiento excepcional.

🧠 El diseño de Sa2VA integra eficazmente las capacidades de comprensión visual y lingüística mediante un método de desacoplamiento, admitiendo una amplia gama de tareas de imágenes y videos.