MA-LMM
面向长期视频理解的大规模多模态模型
普通产品视频视频理解多模态
MA-LMM是一种基于大语言模型的大规模多模态模型,主要针对长期视频理解进行设计。它采用在线处理视频的方式,并使用记忆库存储过去的视频信息,从而可以在不超过语言模型上下文长度限制或GPU内存限制的情况下,参考历史视频内容进行长期分析。MA-LMM可以无缝集成到当前的多模态语言模型中,并在长视频理解、视频问答和视频字幕等任务上取得了领先的性能。
MA-LMM 最新流量情况
月总访问量
735
跳出率
41.23%
平均页面访问数
1.0
平均访问时长
00:00:00