LongVA

从语言到视觉的长上下文转换模型

普通产品图像长上下文视觉模型
LongVA是一个能够处理超过2000帧或超过200K视觉标记的长上下文转换模型。它在Video-MME中的表现在7B模型中处于领先地位。该模型基于CUDA 11.8和A100-SXM-80G进行了测试,并且可以通过Hugging Face平台进行快速启动和使用。
打开网站

LongVA 最新流量情况

月总访问量

499904316

跳出率

37.31%

平均页面访问数

5.8

平均访问时长

00:06:52

LongVA 访问量趋势

LongVA 访问地理位置分布

LongVA 流量来源

LongVA 替代品