长视频也不怕！Goldfish：可理解任意长度视频准确提升

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年7月19号 14:55

231

在视频理解领域，传统的AI模型往往只能处理时长较短的视频，面对几小时甚至更长的视频内容时显得力不从心。这主要是因为这些模型在处理长视频时会遇到“噪声与冗余”以及“内存与计算”限制。现在，一种名为Goldfish的新技术改变了这一局面。

产品入口：https://top.aibase.com/tool/goldfish

Goldfish是一种专门设计用于处理任意长度视频的方法。它采用了一种高效的检索机制，可以先从长视频中提取出与指令最相关的前K个视频片段，然后基于这些片段生成最终的回答。这样，Goldfish能够高效地处理如电影或电视剧这样的长视频内容。

为了实现这一目标，Goldfish团队还开发了MiniGPT4-Video，这是一种可以为视频片段生成详细描述的工具。通过将视频帧和字幕结合在一起，MiniGPT4-Video可以准确地理解视频中的视觉和文本信息，从而提升了处理长视频的能力。

此外，团队还提出了TVQA-long这一基准测试，用于评估模型在理解长视频方面的能力。Goldfish在这一测试中的准确率达到了41.78%，超越了之前的技术。

不仅如此，Goldfish在短视频理解方面也表现优异。在MSVD、MSRVTT、TGIF和TVQA等多个短视频基准测试中，Goldfish的表现都超过了现有的最先进方法，显示了它在短视频处理上的强大实力。

Goldfish通过创新的检索机制和高效的描述生成方法，成功克服了处理长视频的难题，同时在短视频理解方面也取得了显著突破。

**划重点:**
Goldfish通过高效的检索机制和MiniGPT4-Video的描述生成技术，成功处理了任意长度的视频，解决了传统模型在处理长视频时的困难。
在TVQA-long基准测试中，Goldfish的准确率达到了41.78%，超越了之前的技术水平，展示了其强大的处理能力。
Goldfish在多个短视频基准测试中表现优异，超越了现有最先进的方法，证明了其在短视频理解方面的综合能力。

AI音乐生成模型MusiConGen:用Transformer生成音乐，精确控制节奏和和弦

MusiConGen模型是在预训练的MusicGen-melody框架基础上进行微调的，主要用于生成各种风格的音乐片段。研究团队通过设置和弦和节奏的控制参数，展示了模型生成的音乐样本，涵盖了五种不同风格:休闲布鲁斯、平滑酸爵士、经典摇滚、高能放克以及重金属。

日本超市开始用AI技术监控员工微笑网友直呼大可不必

日本永旺超市利用AI系统"Smile-Kun"监控员工微笑，旨在通过量化员工的微笑及声音分析，提升服务技能。该系统要求员工通过特定方式打招呼，依据450个微表情点评分，满分为100分，并实时反馈，此外分析音量、流畅度和语气提供改进建议。员工反应显示微笑比例显著提升。然而，此举引发争议，部分网友批评做法过度量化员工个性情感，难以体现真诚服务。批评者认为基于上下级或同事评估更为合理。此做法虽旨在提高效率，但需考虑如何在追求效时兼顾员工感受与尊严，反思员工服务的真实性和人性化管理。

马斯克的xAI将于下月发布Grok 2，Grok 3预计12月推出

Elon Musk宣布xAI公司将于下月发布性能与GPT-4相当的AI模型Grok2，预计12月推出更强大的Grok3，该模型正在孟菲斯数据中心进行15000+GPU的大规模训练。虽仅部分特斯拉视频数据尚未应用于模型训练，但如ChatGPT对比显示Grok在某些方面仍见不足，밤收购语境下的追赶仍需时间。

小红书开首家“AI便利店” 为优秀AI笔记内容提供3W到50W流量扶持

小红书近日上线“科技薯”账号，启动全球首间AI便利店创业项目。通过与全网优质创作者和科技公司合作，提供AI前沿应用、干货、情感体验等内容，该便利店内售卖包括@赵纯想等人的创意AI产品，例如吃饭辅助、AI式泡面教程、AI颈椎病治疗、林亦LYi的祖传AI治疗、AI帮老妈完成未竟之事等。科技薯还开设活动，邀请笔记写手用 "#AI便利店" 发布AI相关笔记，可获得三万到五十万流量扶持、科技薯官方推荐和小米机器狗等惊喜奖励。此活动不仅整合AI内容，还通过激励机制催生更多AI创意内容。

AI新闻资讯

长视频也不怕！Goldfish：可理解任意长度视频 准确提升

AIbase基地

相关AI新闻推荐

​AI音乐生成模型MusiConGen:用Transformer生成音乐，精确控制节奏和和弦

日本超市开始用AI技术监控员工微笑 网友直呼大可不必

马斯克的xAI将于下月发布Grok 2，Grok 3预计12月推出

小红书开首家“AI便利店” 为优秀AI笔记内容提供3W到50W流量扶持

长视频也不怕！Goldfish：可理解任意长度视频准确提升

AI音乐生成模型MusiConGen:用Transformer生成音乐，精确控制节奏和和弦

日本超市开始用AI技术监控员工微笑网友直呼大可不必