苹果和瑞士洛桑联邦理工学院的研究人员联合开源了一款名为4M-21的大规模多模态视觉模型。与其他专门针对特定任务或数据类型进行优化的模型不同,4M-21具有广泛的通用性和灵活性。尽管只有30亿参数,但它可以提供图像分类、目标检测、语义分割、实例分割、深度估计、表面法线估计等数十种功能。

该模型的关键核心技术是 “离散 tokens” 转换技术,它可以将各种模态的数据转换为统一格式的 tokens 序列数据。无论是图像类数据、神经网络特征图、向量、结构化数据还是以文本形式表示的数据,都可以转换成模型可以理解的同一数据格式。这种转换不仅简化了模型的训练,还为多模态学习和处理奠定了基础。

image.png

产品入口:https://github.com/apple/ml-4m/

在训练阶段,4M-21通过掩码建模的方法来完成多模态学习。它会随机遮盖输入序列中的部分 tokens,然后基于剩余未遮盖的 tokens 预测被遮盖的部分。这种方法迫使模型学习输入数据的统计结构和潜在关系,从而捕捉到不同模态间的信息共通性和交互性。掩码建模不仅提升了模型的泛化能力,还提升了生成任务的准确性。

研究人员对4M-21在图像分类、目标检测、语义分割、实例分割、深度估计、表面法线估计以及3D 人体姿态估计等任务中进行了综合评测。结果显示,4M-21的多模态处理能力可以媲美当前最先进的模型,在各项任务中表现出色。

划重点:

- 苹果和瑞士洛桑联邦理工学院联合开源了一款名为4M-21的大规模多模态视觉模型,具有广泛的通用性和灵活性。

-4M-21可以提供图像分类、目标检测、语义分割、实例分割、深度估计、表面法线估计等数十种功能。

-4M-21的关键技术是 “离散 tokens” 转换技术,可以将各种模态的数据转换为统一格式的 tokens 序列数据。