清华大学与智谱 AI 合作开发的国产多模态模型 CogVLM-17B 表现出卓越的性能。该模型可以识别图像中的对象,并且能够分辨完整可见和部分可见的物体。CogVLM-17B 采用了独特的深度融合方法,通过四个关键组件实现了图像特征和文本特征的深度对齐。该模型在多个领域超越了谷歌的模型,被称为 “14 边形战士”,展现了出色的多模态处理能力。这款国产多模态模型为多模态领域的技术研究提供了新的思路和可能性。