LLaVA
大型语言和视觉助手,实现多模态聊天和科学问答
普通产品图像多模态聊天
LLaVA是一种新型的端到端训练的大型多模态模型,将视觉编码器和Vicuna相结合,实现了令人印象深刻的聊天能力,模仿多模态GPT-4的精神,并在科学问答方面取得了新的最高准确率。LLaVA的使用场景包括日常用户应用的多模态聊天和科学领域的多模态推理。LLaVA的数据、代码和检查点仅限于研究用途,并遵循CLIP、LLaMA、Vicuna和GPT-4的许可协议。
LLaVA 最新流量情况
月总访问量
97156
跳出率
51.72%
平均页面访问数
1.4
平均访问时长
00:00:47