华人团队开发的MiniGPT-v2视觉模型在GitHub上获得超过两万颗星标,能够完成多种视觉任务,包括目标对象描述、视觉定位和图像说明。MiniGPT-v2采用多阶段训练,在视觉问题解答和接地基准测试中表现出色,以ViT视觉主干为基础,通过简单多模态指令实现高效的任务完成。