针对最近备受关注的视觉语言模型GPT-4V,有研究者构建了一个新基准测试HallusionBench用于检验其图像推理能力。结果发现,GPT-4V等模型在HallusionBench中表现不佳,易受自身参数化记忆的影响产生语言幻觉,答案错误率高达90%。此外,在几何等视觉问题上GPT-4V的表现也不尽如人意,反映出其当前的视觉能力还非常有限。简单的图像操作就可以轻易地误导GPT-4V,暴露出其脆弱性。相比之下,LLaVA-1.5的知识储备则不如GPT-4V丰富,存在一些常识性错误。本研究揭示了当前视觉语言模型在图像推理方面的局限,为未来的改进提供参考。