VideoPrism

视频理解基础模型

普通产品视频视频理解编码器
VideoPrism是一个通用的视频编码模型,能够在各种视频理解任务上取得领先的性能,包括分类、定位、检索、字幕生成和问答等。其创新点在于预训练的数据集非常大且多样,包含3600万高质量的视频-文本对,以及5.82亿带有嘈杂文本的视频剪辑。预训练采用两阶段策略,先利用对比学习匹配视频和文本,然后预测遮蔽的视频块,充分利用不同的监督信号。一个固定的VideoPrism模型可以直接适配到下游任务,并在30个视频理解基准上刷新状态最优成绩。
打开网站

VideoPrism 最新流量情况

月总访问量

1092872

跳出率

53.22%

平均页面访问数

3.3

平均访问时长

00:00:41

VideoPrism 访问量趋势

VideoPrism 访问地理位置分布

VideoPrism 流量来源

VideoPrism 替代品