MG-LLaVA

多粒度视觉指令调优的创新MLLM

普通产品编程机器学习视觉处理
MG-LLaVA是一个增强模型视觉处理能力的机器学习语言模型(MLLM),通过整合多粒度视觉流程,包括低分辨率、高分辨率和以对象为中心的特征。提出了一个额外的高分辨率视觉编码器来捕捉细节,并通过Conv-Gate融合网络与基础视觉特征融合。此外,通过离线检测器识别的边界框整合对象级特征,以进一步细化模型的对象识别能力。MG-LLaVA仅在公开可用的多模态数据上通过指令调优进行训练,展现出卓越的感知技能。
打开网站

MG-LLaVA 最新流量情况

月总访问量

499904316

跳出率

37.31%

平均页面访问数

5.8

平均访问时长

00:06:52

MG-LLaVA 访问量趋势

MG-LLaVA 访问地理位置分布

MG-LLaVA 流量来源

MG-LLaVA 替代品