PPLLaVA

视频序列理解的GPU实现模型

普通产品视频视频理解大型语言模型
PPLLaVA是一个高效的视频大型语言模型,它结合了细粒度视觉提示对齐、用户指令的卷积风格池化的视觉令牌压缩以及CLIP上下文扩展。该模型在VideoMME、MVBench、VideoChatGPT Bench和VideoQA Bench等数据集上建立了新的最先进结果,仅使用1024个视觉令牌,吞吐量提高了8倍。
打开网站

PPLLaVA 最新流量情况

月总访问量

494758773

跳出率

37.69%

平均页面访问数

5.7

平均访问时长

00:06:29

PPLLaVA 访问量趋势

PPLLaVA 访问地理位置分布

PPLLaVA 流量来源

PPLLaVA 替代品