zh
红薯智语
每月不到10元,就可以无限制地访问最好的AIbase。立即成为会员
首页
AI资讯
AI日报
变现指南
AI教程
AI工具导航
AI产品库
zh
红薯智语
搜索全球AI产品动态
搜索全球AI信息,发现AI新机遇
新闻资讯
产品应用
变现案例
AI教程
类型 :
新闻资讯
产品应用
变现案例
AI教程
2024-10-28 14:42:03
.
AIbase
.
12.8k
Meta开源长视频LLM项目LongVU:可过滤重复帧 高效精准理解长视频内容
最近,Meta AI 团队带来了 LongVU,这是一种新颖的时空自适应压缩机制,旨在提升长视频的语言理解能力。传统的多模态大型语言模型(MLLMs)在处理长视频时面临着上下文长度的限制,而 LongVU 正是为了解决这一难题而诞生。LongVU 的工作原理主要通过过滤重复帧、跨帧token压缩等方法来高效使用上下文长度,能够在保持视频视觉细节的同时减少视频中的冗余信息。具体来说,团队使用 DINOv2的特征来剔除那些高度相似的冗余帧。接着,通过文本引导的跨模态查询,实现了选择性地减少帧特征