在多模态大语言模型(MLLMs)的推动下,图像和视频相关的任务取得了革命性的进展,包括视觉问答、叙述生成和交互式编辑等。然而,实现细粒度的视频内容理解仍然面临重大挑战。这一挑战涉及像素级的分割、带有语言描述的跟踪,以及在特定视频提示上进行视觉问答等任务。

image.png

尽管当前最先进的视频感知模型在分割和跟踪任务上表现出色,但它们在开放式语言理解和对话能力方面仍显不足。此外,视频 MLLMs 在视频理解和问答任务上表现良好,但在处理感知任务和视觉提示方面依然力不从心。

现有的解决方案主要有两种:多模态大语言模型(MLLMs)和引用分割系统。MLLMs 最初致力于改进多模态融合方法和特征提取器,逐渐发展为在 LLMs 上进行指令调优的框架,如 LLaVA。近期,研究人员尝试将图像、视频和多图像分析统一到单一框架中,如 LLaVA-OneVision。同时,引用分割系统也经历了从基本融合模块到集成分割和跟踪的变革。然而,这些解决方案在感知和语言理解能力的全面整合上仍存在不足。

来自 UC Merced、字节跳动种子团队、武汉大学和北京大学的研究人员提出了 Sa2VA,这是一种开创性的统一模型,旨在实现图像和视频的密集基础理解。该模型通过最小化一次性指令调优,支持广泛的图像和视频任务,克服了现有多模态大语言模型的局限性。

Sa2VA 创新性地将 SAM-2与 LLaVA 整合,将文本、图像和视频统一到共享的 LLM 令牌空间中。此外,研究人员还推出了一个名为 Ref-SAV 的广泛自动标注数据集,包含超过72K 个复杂视频场景中的对象表达,以及2K 个经过人工验证的视频对象,以确保稳健的基准能力。

Sa2VA 的架构主要由两个部分组成:类似 LLaVA 的模型和 SAM-2,采用了一种新颖的解耦设计。LLaVA-like 组件包括处理图像和视频的视觉编码器、视觉投影层以及用于文本令牌预测的 LLM。该系统采用独特的解耦方式,使得 SAM-2在预训练的 LLaVA 模型旁边运作,而不进行直接的令牌交换,从而保持计算效率,并允许与各种预训练的 MLLMs 进行插拔式功能连接。

研究结果表明,Sa2VA 在引用分割任务中取得了最先进的结果,其 Sa2VA-8B 模型在 RefCOCO、RefCOCO + 和 RefCOCOg 上的 cIoU 评分分别为81.6、76.2和78.9,超越了 GLaMM-7B 等之前的系统。在对话能力方面,Sa2VA 在 MME、MMbench 和 SEED-Bench 上分别取得了2128、81.6和75.1的优异成绩。

此外,Sa2VA 在视频基准测试中的表现也显著超过了之前的状态 - of-the-art VISA-13B,显示出其在图像和视频理解任务中的高效性与有效性。

论文:https://arxiv.org/abs/2501.04001

模型:https://huggingface.co/collections/ByteDance/sa2va-model-zoo-677e3084d71b5f108d00e093

划重点:

🌟 Sa2VA 是一个新颖的统一 AI 框架,实现了图像与视频的深度理解,克服了现有多模态模型的局限性。

📊 该模型在引用分割和对话能力等多项基准测试中均取得了最先进的成绩,展现了出色的性能。

🧠 Sa2VA 的设计通过解耦的方式有效整合了视觉和语言理解能力,支持广泛的图像与视频任务。