LLaVA-Video
视频指令调优与合成数据研究
普通产品视频视频理解多模态学习
LLaVA-Video是一个专注于视频指令调优的大型多模态模型(LMMs),通过创建高质量的合成数据集LLaVA-Video-178K来解决从网络获取大量高质量原始数据的难题。该数据集包括详细的视频描述、开放式问答和多项选择问答等任务,旨在提高视频语言模型的理解和推理能力。LLaVA-Video模型在多个视频基准测试中表现出色,证明了其数据集的有效性。
LLaVA-Video 最新流量情况
月总访问量
74242
跳出率
57.36%
平均页面访问数
1.3
平均访问时长
00:00:33