中国科研团队重磅发布VideoChat-Flash 长视频处理速度提升100倍

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Jan 21, 2025

202

传统的视频理解模型在处理长视频时面临着许多挑战，包括理解长视频所带来的复杂上下文。尽管已有不少研究致力于提升视频理解能力，依然难以有效克服训练和推理效率低下的问题。针对这些问题，研究团队通过 HiCo 技术，将视频信息中的冗余部分进行压缩，从而显著降低计算需求，同时保留关键信息。

具体而言，HiCo 通过对视频进行层次化压缩，将长视频分割成短片段，进而减少处理的标记数量。这一方法不仅降低了模型对计算资源的要求，还提升了上下文窗口的宽度，增强了模型的处理能力。此外，研究团队还利用了与用户查询的语义关联，以进一步减少视频标记的数量。

在长视频处理的具体实现中，“VideoChat-Flash” 采用了一种多阶段的短视频到长视频的学习方案。研究人员首先使用短视频及其对应的注释进行监督微调，随后逐步引入长视频进行训练，最终实现了对混合长度语料的全面理解。这种方式不仅提高了模型的视觉感知能力，还为长视频的处理提供了丰富的数据支持，研究团队构建了一个包含300，000小时视频和2亿字注释的庞大数据集。

此外，研究中还提出了一种改进的 “干草堆中的针” 任务，用于多跳视频配置。通过新的基准，模型不仅需要找到视频中的单一目标图像，还需理解多个相互关联的图像序列，从而提高了模型对上下文的理解能力。

实验结果表明，所提出的方法在计算上减少了两个数量级，特别是在短视频和长视频的基准测试中表现出色，成为新的短视频理解领域的领导者。同时，该模型在长视频理解方面也超越了现有的开源模型，显示出强大的时间定位能力。

论文:https://arxiv.org/abs/2501.00574

划重点:
🌟 研究人员提出了层次化视频标记压缩技术 HiCo，显著降低长视频处理的计算需求。
📹 “VideoChat-Flash” 系统采用多阶段学习方法，结合短视频和长视频进行训练，提升了模型的理解能力。
🔍 实验结果显示，该方法在多个基准测试中达到了新的性能标准，成为长视频处理领域的先进模型。

HiCo VideoChat-Flash 视频理解长视频处理

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

Meta AI 发布新型视频学习模型V-JEPA ：视频理解新突破

近日，Meta AI 团队推出了视频联合嵌入预测架构（V-JEPA）模型，这一创新举措旨在推动机器智能的发展。人类能够自然而然地处理来自视觉信号的信息，进而识别周围的物体和运动模式。机器学习的一个重要目标是揭示促使人类进行无监督学习的基本原理。研究人员提出了一个关键假设 —— 预测特征原则，认为连续感官输入的表示应该能够相互预测。早期的研究方法通过慢特征分析和谱技术来保持时间一致性，防止表示崩溃。而现在的许多新方法则结合了对比学习和掩蔽建模，确保表示能

2025年2月24号 10:02

3.3k

一体化 AI 框架Sa2VA:实现图像与视频的深度理解

在多模态大语言模型（MLLMs）的推动下，图像和视频相关的任务取得了革命性的进展，包括视觉问答、叙述生成和交互式编辑等。然而，实现细粒度的视频内容理解仍然面临重大挑战。这一挑战涉及像素级的分割、带有语言描述的跟踪，以及在特定视频提示上进行视觉问答等任务。尽管当前最先进的视频感知模型在分割和跟踪任务上表现出色，但它们在开放式语言理解和对话能力方面仍显不足。此外，视频 MLLMs 在视频理解和问答任务上表现良好，但在处理感知任务和视觉提示方面依然力不

2025年1月13号 9:21

2.0k

Twelve Labs 正在开发能够分析和搜索视频的人工智能

在数字媒体洪流中，视频正以前所未有的速度增长。然而，传统的搜索和分析方法始终受限于技术的局限性。十二实验室正在彻底改变这一现状，用人工智能的力量为视频内容带来革命性的理解能力。传统的视频搜索仅停留在标题和标签层面，如同只能看到冰山一角。十二实验室的创始人Jae Lee深知，真正的视频理解需要更深层次的技术。他们的模型不仅仅识别关键词，更能理解视频中的动作、物体和背景声音。这意味着用户可以提出极其精准的问题，比如"穿红色衬衫的人什么时候进入餐

2024年12月13号 10:44

2.1k

Twelve Labs推出多模态视频理解AI 解决视频内容搜索和分析难题

Twelve Labs开发了一款创新的AI技术，能够分析和搜索视频内容。用户可以通过特定内容进行搜索，例如“穿红衬衫的人何时进入餐厅”，还能够对视频片段进行自动总结。这项技术已经吸引了Nvidia、三星和英特尔等大牌投资者的关注。与谷歌的Gemini等现有技术相比，Twelve Labs的最大优势在于其高度的可定制性，客户能够使用自己的数据来训练模型，针对具体需求优化功能。公司联合创始人兼CEO李在（Jae Lee）表示，视频作为增长最快、数据最密集的媒体，现有的搜索方式无法满足日益增长的需

2024年12月13号 10:18

1.6k

英伟达重磅推出：AI视频理解新突破，让机器真正读懂视频内容

NVIDIA近日对外发布全新的AI视频搜索与摘要蓝图（AI Blueprint for Video Search and Summarization），这一技术方案将彻底改变传统视频分析的局限性。不同于过去仅能识别预设对象的固定模型，新方案通过结合生成式AI、视觉语言模型(VLM)和大语言模型(LLM)，实现了对视频内容的深度理解和自然交互。这套系统建立在NVIDIA NIM微服务架构之上，核心优势在于其强大的视频理解能力。通过将视频分段处理、密集描述生成和知识图谱构建等技术有机结合，系统可以准确理解和分析超长视频内容。用户可以通

2024年11月11号 9:29

4.5k

视频理解领域杀出黑马！Video-XL这款模型能处理长达一小时的视频！

当前，多模态大型语言模型（MLLM）在视频理解领域取得了显著进展，但处理超长视频仍然是一个挑战。这是因为，MLLM 通常难以处理超过最大上下文长度的数千个视觉标记，并且会受到标记聚合导致的信息衰减的影响。同时，大量的视频标记也会带来高昂的计算成本。为了解决这些问题，智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等多所高校提出了 Video-XL，这是一种专为高效的小时级视频理解而设计的超长视觉语言模型。 Video-XL 的核心在于“视觉上下文潜在

2024年10月29号 11:18

2.9k

智源推出小时级超长视频理解大模型Video-XL

北京智源人工智能研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等高校推出了一款名为Video-XL的超长视频理解大模型。这款模型是多模态大模型核心能力的重要展示，也是向通用人工智能（AGI）迈进的关键步骤。与现有多模态大模型相比，Video-XL在处理超过10分钟的长视频时，展现了更优的性能和效率。

2024年10月28号 16:13

4.0k

Salesforce AI研究推全新多模态模型BLIP-3-Video:低成本搞定视频理解

最近，Salesforce AI 研究团队推出了一款全新的多模态语言模型 ——BLIP-3-Video。随着视频内容的快速增加，如何高效处理视频数据成为了一个亟待解决的问题。这款模型的出现，旨在提升视频理解的效率和效果，适用于从自动驾驶到娱乐等各个行业。传统的视频理解模型往往是逐帧处理视频，生成大量的视觉信息。这一过程不仅消耗了大量的计算资源，还极大地限制了处理长视频的能力。随着视频数据量的不断增长，这种方法变得愈发低效，因此，找到一种既能捕捉到视频的关键信息，又能

2024年10月25号 11:16

1.3k

智源发布原生多模态世界模型Emu3：仅靠下一个token预测实现文本、图像和视频理解和生成

智源研究院正式发布了他们的新一代多模态世界模型 Emu3，该模型的最大亮点在于，它仅依靠下一个 token 的预测能力，就能在文本、图像和视频这三种不同模态中进行理解和生成。在图像生成方面，Emu3能够根据视觉 token 预测生成高质量的图像。这意味着用户可以期待灵活的分辨率和多样的风格。而在视频生成方面，Emu3则是以一种全新的方式工作，不同于其他模型通过噪声生成视频，Emu3通过顺序预测直接生成视频。这种技术的进步使得视频生成变得更加流畅自然。在图像生成、视频生成和

2024年10月21号 14:55

1.4k

书生·浦语灵笔多模态大模型升级2.5版本支持更长上下文图像视频理解力直指GPT4V

书生·浦语灵笔(InternLM-XComposer)2.5版本由上海人工智能实验室研发，主打长上下文输入输出能力，能在96K长度中流畅运作，通过24K交错图像-文本数据训练。其升级点包括：高分辨率图像理解、细粒度视频理解、多轮多图对话。应用上，可制作网页、撰写高质量图文文章。评估显示，在16个基准测试中超越开源最先进模型，在关键任务中与GPT-4V、Gemini Pro表现接近或超越，展现强大性能和广泛应用潜力。

2024年7月31号 17:56

2.5k

AI资讯

AI日报

AI时间线

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图