站长之家(ChinaZ.com)6月17日 消息:由香港中文大学和中国科学院等机构的研究团队提出了一种名为MiCo(Multimodal Context)的全模态预训练范式,这一方法在多模态学习领域取得了显著成果,刷新了37项最先进性能(SOTA)记录。
核心特点:
全模态理解:MiCo旨在构建能够理解任何模态并学习通用表示的全模态智能。
大规模预训练:通过引入更多模态、数据量和模型参数,MiCo在预训练过程中模拟了人脑的多模态认知过程。
神经网络结构设计:MiCo将不同模态分为“知识模态”和“接口模态”,并设计了相应的全模态学习架构,通过生成推理方法进行对齐。
多模态上下文与尺度定律:MiCo利用多模态上下文来强化模态间的相互增强,构建了跨模态的上下文关系。
实验结果显示:
在10种不同模态的单模态感知基准测试中,MiCo取得了7项SOTA成绩。
在25种跨模态理解任务中,包括检索、问答、描述等,MiCo获得了20项SOTA成绩。
在18种多模态大型语言模型基准测试中,MiCo共取得了10项SOTA成绩。
MiCo的预训练方法:
团队采用了视频与相配对的音频、文字描述、深度和法线进行联合预训练,模拟人脑的视觉、听觉和时空感知能力。
通过全模态编码器(如ViT)提取多模态特征,并使用文本编码器提取文本特征,构建了多模态上下文关系。
结论与未来工作:
MiCo项目是人工智能模拟人脑多模态认知的重要尝试,团队期待它能够启发未来的研究,开发更强大的全模态基础模型。
未来的工作计划包括结合更多模态,如光流、IMU数据和事件文件等,以继续增强全模态联合预训练。