夕小瑶科技说 | 别再吹 GPT-4V 了!连北京烤鸭都不认识,你敢信??
夕小瑶科技说
16
针对最近备受关注的视觉语言模型GPT-4V,有研究者构建了一个新基准测试HallusionBench用于检验其图像推理能力。结果发现,GPT-4V等模型在HallusionBench中表现不佳,易受自身参数化记忆的影响产生语言幻觉,答案错误率高达90%。此外,在几何等视觉问题上GPT-4V的表现也不尽如人意,反映出其当前的视觉能力还非常有限。简单的图像操作就可以轻易地误导GPT-4V,暴露出其脆弱性。相比之下,LLaVA-1.5的知识储备则不如GPT-4V丰富,存在一些常识性错误。本研究揭示了当前视觉语言模型在图像推理方面的局限,为未来的改进提供参考。
© 版权所有 AIbase基地 2024, 点击查看来源出处 - https://www.aibase.com/zh/news/2491