MASA是一个用于视频帧中对象匹配的先进模型,它能够处理复杂场景中的多目标跟踪(MOT)。MASA不依赖于特定领域的标注视频数据集,而是通过Segment Anything Model(SAM)丰富的对象分割,学习实例级别的对应关系。MASA设计了一个通用适配器,可以与基础的分割或检测模型配合使用,实现零样本跟踪能力,即使在复杂领域中也能表现出色。