LLaVA-Video

视频指令调优与合成数据研究

普通产品视频视频理解多模态学习
LLaVA-Video是一个专注于视频指令调优的大型多模态模型(LMMs),通过创建高质量的合成数据集LLaVA-Video-178K来解决从网络获取大量高质量原始数据的难题。该数据集包括详细的视频描述、开放式问答和多项选择问答等任务,旨在提高视频语言模型的理解和推理能力。LLaVA-Video模型在多个视频基准测试中表现出色,证明了其数据集的有效性。
打开网站

LLaVA-Video 最新流量情况

月总访问量

74242

跳出率

57.36%

平均页面访问数

1.3

平均访问时长

00:00:33

LLaVA-Video 访问量趋势

LLaVA-Video 访问地理位置分布

LLaVA-Video 流量来源

LLaVA-Video 替代品