MG-LLaVA
多粒度视觉指令调优的创新MLLM
普通产品编程机器学习视觉处理
MG-LLaVA是一个增强模型视觉处理能力的机器学习语言模型(MLLM),通过整合多粒度视觉流程,包括低分辨率、高分辨率和以对象为中心的特征。提出了一个额外的高分辨率视觉编码器来捕捉细节,并通过Conv-Gate融合网络与基础视觉特征融合。此外,通过离线检测器识别的边界框整合对象级特征,以进一步细化模型的对象识别能力。MG-LLaVA仅在公开可用的多模态数据上通过指令调优进行训练,展现出卓越的感知技能。
MG-LLaVA 最新流量情况
月总访问量
494758773
跳出率
37.69%
平均页面访问数
5.7
平均访问时长
00:06:29