站长之家(ChinaZ.com)6月17日 消息:近日,智谱、清华大学和北京大学合作推出了一个名为LVBench的长视频理解基准测试项目。现有的多模态大型语言模型虽然在短视频理解方面取得了长足进步,但在处理长达数小时的长视频时仍面临挑战。为弥补这一空白,LVBench应运而生。

QQ截图20240617145826.png

这个项目包含了6个主要类别和21个子类别的数小时QA数据,涵盖了来自公开来源的电视剧、体育转播和日常监控录像等不同类型的视频内容。这些数据都经过高质量的标注,并使用LLM筛选出具有挑战性的问题。据悉,LVBench数据集涵盖了视频摘要、事件检测、角色识别和场景理解等多种任务。

QQ截图20240617145801.png

LVBench基准的推出,不仅旨在检验模型在长视频场景下的推理和运作能力,更将推动相关技术的突破和创新,为实现长视频领域的具身智能决策、深度影视评论和专业体育解说等应用需求注入新动力。

许多研究机构已在LVBench数据集上开展工作,通过建立面向长视频任务的大模型,逐步拓展人工智能在理解长期信息流方面的边界,为视频理解、多模态学习等领域的持续探索注入新的活力。

github:https://github.com/THUDM/LVBench

项目:https://lvbench.github.io

论文:https://arxiv.org/abs/2406.08035