清华、浙大等学府推动了GPT-4V的开源替代方案,在中国出现了一系列性能优异的开源视觉模型。其中,LLaVA、CogAgent和BakLLaVA备受关注。LLaVA在视觉聊天和推理问答方面表现出接近GPT-4水平的能力,而CogAgent是在CogVLM基础上改进的开源视觉语言模型。另外,BakLLaVA是使用LLaVA1.5架构增强的Mistral7B基础模型,具备更好的性能和商用能力。这些开源视觉模型在视觉处理领域具有巨大的潜力。