LongVA
从语言到视觉的长上下文转换模型
普通产品图像长上下文视觉模型
LongVA是一个能够处理超过2000帧或超过200K视觉标记的长上下文转换模型。它在Video-MME中的表现在7B模型中处于领先地位。该模型基于CUDA 11.8和A100-SXM-80G进行了测试,并且可以通过Hugging Face平台进行快速启动和使用。
LongVA 最新流量情况
月总访问量
515580771
跳出率
37.20%
平均页面访问数
5.8
平均访问时长
00:06:42
从语言到视觉的长上下文转换模型
月总访问量
515580771
跳出率
37.20%
平均页面访问数
5.8
平均访问时长
00:06:42