计算机视觉领域的研究进展之一是「分割一切模型」。Meta于四月份发布了这一模型,能够自动分割图像中的所有内容。该模型基于提示的视觉Transformer模型,训练时使用了超过1100万张图像的超过10亿个掩码。研究者还提出了一种改进思路,利用掩码图像预训练方法和SAM模型,以获得高质量的预训练ViT编码器。该方法降低了SAM的复杂性,同时保持良好性能,并在多个任务上取得了比其他预训练模型更好的结果。