随着 GPT-4 的发布,多模态大模型(MLLM)成为热点。马毅团队提出了 EMT 框架,评估微调后的 MLLM 的灾难性遗忘。实验发现,微调 MLLM 在提升微调数据集性能的同时,也导致其他数据集性能下降。微调过程中,MLLM 会产生与微调数据集相关的幻觉文本,忽略原始问题。研究为后续工作提供了框架和基准,模型设计和训练技巧仍需进一步优化。马毅团队首次系统评估了 MLLM 中的灾难性遗忘问题,平衡不同能力之间的权衡。