近期,人工智能领域一直将视觉和语言的无缝整合作为关注焦点,特别是在大型语言模型(LLMs)的出现下,该领域取得了显著进展。然而,对于多模态 AGI 系统而言,发展视觉和视觉语言基础模型仍有待迎头赶上。为填补这一差距,来自南京大学、OpenGVLab、上海人工智能实验室、香港大学、香港中文大学、清华大学、中国科技大学和 SenseTime Research 的研究人员提出了一种创新的模型 ——InternVL。该模型扩大了视觉基础模型的规模,并使其适应通用的视觉语言任务。InternVL 通过在 32 个通用视觉语言基准测试中超越现有方法,展示了其在图像和视频分类、图像和视频文本检索、图像字幕、可见问题回答以及多模态对话等各种任务中的卓越能力。