最近有研究发现,GPT-4在一项视觉识别挑战任务中表现不佳,原因可能是该任务中的图片在训练集中过于常见,GPT-4是利用记忆而不是真正的视觉识别能力来解答的。这说明了即使大模型在某些任务中表现突出,也需要谨慎看待,不能因为在训练集上的成功就高估模型的泛化能力。继续提升模型的泛化性和对抗样本的鲁棒性是当前的重点研究方向之一。同时也需要警惕只在训练集上测试模型的问题,要在更广泛的样本上考察模型的泛化能力,才能更好地评估模型性能。