Video-CCAM
腾讯QQ多媒体研究团队开发的轻量级灵活视频多语言模型
普通产品视频视频理解多语言模型
Video-CCAM 是腾讯QQ多媒体研究团队开发的一系列灵活的视频多语言模型(Video-MLLM),致力于提升视频-语言理解能力,特别适用于短视频和长视频的分析。它通过因果交叉注意力掩码(Causal Cross-Attention Masks)来实现这一目标。Video-CCAM 在多个基准测试中表现优异,特别是在 MVBench、VideoVista 和 MLVU 上。模型的源代码已经重写,以简化部署过程。
Video-CCAM 最新流量情况
月总访问量
494758773
跳出率
37.69%
平均页面访问数
5.7
平均访问时长
00:06:29