苹果公司在Hugging Face上放出了一颗重磅炸弹,开放了他们去年的论文4M 模型的演示。该模型能够处理和生成多种模态内容,包括文本、图像和3D 场景。一个模型就可以将图片中的所有信息拆解出来,包括深度图、线稿等。AIbase拿之前生成的古风意境图片测试了一下,确实挺牛,图片上传后,很快就获得了以下拆解信息图:
只要上传一张照片,你就可以轻松获得这张照片的所有信息,例如这张图的主要轮廓,画面主要色调,图片尺寸等等。
这对苹果来说,可以算是在研发领域保密传统上的一次大胆转身。他们不仅在Hugging Face这个开源AI的舞台上展示了自家的AI实力,更是向开发者们抛出了橄榄枝,希望围绕4M构建起一个生态系统。4M的多模态架构,预示着苹果生态里可能会出现更多连贯且多功能的AI应用,比如Siri能更智能地处理复杂查询,或者Final Cut Pro能根据你的语言指令自动剪辑视频。
但是,4M的面世也带来了数据实践和AI伦理的挑战。苹果一直标榜自己是用户隐私的守护者,但面对这样一个数据密集型的AI模型,他们的立场会不会受到考验?苹果需要小心翼翼地平衡,确保在推动技术进步的同时,用户的信任不会受到损害。
让我们来简单了解一下4M的技术原理。4M最大的亮点在于它的"大规模多模态屏蔽建模"训练方法。这种训练方式能够同时处理多种视觉模态,无论是图像、语义还是几何信息,都能转化为统一的tokens,实现模态间的无缝对接。
在训练过程中,4M采用了一种巧妙的方式:随机选择一部分标记作为输入,另一部分作为目标,通过这种方式实现了训练目标的可扩展性。这意味着,无论是图片还是文本,对4M来说都只是一串数字标记,这种设计大大提升了模型的通用性。
4M的训练数据和方法同样值得一提。它使用了全球最大的开源数据集之一CC12M,虽然这个数据集数据丰富,但标注信息并不完善。为了解决这个问题,研究人员采用了弱监督伪标签的方法,利用CLIP、MaskRCNN等技术对数据集进行全面预测,再将预测结果转化为tokens,为4M的多模态兼容打下了基础。
经过广泛的实验和测试,4M已经证明了自己能够直接执行多模态任务,无需进行大量的特定任务预训练或微调。这就像是给了AI一个多模态的瑞士军刀,让它能够灵活应对各种挑战。
演示地址:https://huggingface.co/spaces/EPFL-VILAB/4M