近日,研究人员推出了 ShareGPT4Video 系列,旨在通过精细而详尽的字幕促进大规模视频语言模型(LVLMs)的视频理解以及文本到视频模型(T2VMs)的视频生成。

ShareGPT4Video 包括:

1)ShareGPT4Video,由 GPT4V 注释的40,000个不同长度和来源视频的密集字幕,通过精心设计的数据过滤和注释策略开发而成。

2)ShareCaptioner-Video,一种高效且功能强大的视频字幕生成模型,适用于任意视频,由它注释了4,800,000个高质量美学视频。

3)ShareGPT4Video-8B,一个简单但卓越的 LVLM,在三个先进的视频基准测试中取得了 SOTA 性能。

除了不具扩展性且成本高昂的人类标注者外,研究发现使用 GPT4V 以简单的多帧或帧串联输入策略为视频生成字幕导致结果缺乏细节,并且有时会出现时间上的混乱。研究团队认为设计高质量视频字幕策略的挑战在于三个方面:

1)理解帧间精确的时间变化。

2)描述帧内详细的内容。

3)对于任意长度的视频,帧数量的可扩展性。

为此,研究人员精心设计了差分视频字幕策略,对于生成任意分辨率、宽高比和长度的视频字幕是稳定、可扩展且高效的。基于此构建了 ShareGPT4Video,包含40,000个高质量视频,涵盖了广泛的类别,生成的字幕包含丰富的世界知识、物体属性、摄像机运动以及关键的事件详细和精确的时间描述。

基于 ShareGPT4Video,又进一步开发了 ShareCaptioner-Video,一个优秀的字幕生成模型,能够高效生成任意视频的高质量字幕。用它注释了4,800,000个美学吸引力强的视频,并在一个10秒的文本到视频生成任务上验证了它们的有效性。ShareCaptioner-Video 是一个四合一的卓越视频字幕模型,具有以下功能:快速字幕、滑动字幕、剪辑摘要和快速重新字幕。

image.png

在视频理解方面,研究团队还验证了 ShareGPT4Video 对几个当前 LVLM 体系结构的有效性,并呈现了出色的新 LVLM ShareGPT4Video-8B。

产品入口:https://top.aibase.com/tool/sharegpt4video