清华大学、腾讯联合推全开源多模态架构Oryx 支持超长视频输入

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Sep 29, 2024

252

在人工智能快速发展的今天，一个名为ORYX的多模态大型语言模型正在悄然改变我们对AI理解视觉世界能力的认知。这个由清华大学、腾讯和南洋理工大学研究人员联合开发的AI系统，堪称视觉处理领域的"变形金刚"。

ORYX，全称Oryx Multi-Modal Large Language Models，是一个专门设计用于处理图像、视频和3D场景时空理解的AI模型。它的核心优势在于能够像人类一样，不仅理解视觉内容，还能洞察内容之间的关联和背后的故事。

这个AI系统的一大亮点是其处理任意分辨率视觉输入的能力。无论是模糊的老照片还是高清视频，ORYX都能轻松应对。这得益于其预训练模型OryxViT，它能将不同分辨率的图像转换为AI可理解的统一格式。

更令人惊叹的是ORYX的动态压缩能力。面对长时间的视频输入，它能够智能地压缩信息，保留关键内容而不失真。这就像是将一本厚重的书精炼成一张内容丰富的便签卡，既保留了核心信息，又大大提高了处理效率。

ORYX的工作原理主要依赖于两个核心组件:视觉编码器OryxViT和动态压缩模块。前者负责处理多样化的视觉输入，后者则确保长时间视频等大容量数据能够被高效处理。

在实际应用中，ORYX展现出了惊人的潜力。它不仅能深入理解视频内容，包括对象、情节和动作，还能准确把握3D空间中物体的位置和关系。这种全方位的视觉理解能力，为未来的人机交互、智能监控、自动驾驶等领域带来了无限可能。

值得一提的是，ORYX在多个视觉-语言基准测试中表现卓越，尤其在图像、视频和多视图3D数据的空间和时间理解方面，展现出了领先优势。

ORYX的创新之处不仅在于其强大的处理能力，更在于它为AI视觉理解开辟了新的范式。它能够以原生分辨率处理视觉输入，同时通过动态压缩技术高效处理长视频，这种灵活性和效率是其他AI模型难以企及的。

随着技术的不断进步，ORYX有望在未来的AI领域扮演更加重要的角色。它不仅将帮助机器更好地理解我们的视觉世界，还可能为人类认知过程的模拟提供新的思路。

论文地址:https://arxiv.org/pdf/2409.12961

ORYX 多模态大型语言模型 OryxViT 视觉处理

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

上海AI实验室开源InternVL3系列多模态大型语言模型

OpenGVLab开源发布了InternVL3系列模型，这标志着多模态大型语言模型（MLLM）领域迎来了新的里程碑。InternVL3系列包含从1B到78B共7个尺寸的模型，能够同时处理文字、图片、视频等多种信息，展现出卓越的整体性能。

2025年4月14号 8:37

2.7k

Gemini AI 实现视觉处理新突破：实时视频与静态图像同步分析

谷歌的 Gemini AI 近期实现了一个令人瞩目的技术突破，它能够同时处理多个视觉流，这在人工智能领域是一项前所未有的成就。这一功能的亮相并不是通过谷歌的主流平台，而是通过一个名为 “AnyChat” 的实验性应用得以展示。Gemini AI 的这一新能力使其不仅能够实时观看视频，还能同时分析静态图像，这打破了以往人工智能只能处理单一视觉输入的限制。Gradio 的机器学习负责人 Ahsen Khaliq 在接受《VentureBeat》采访时表示:“现在你可以在与 AI 进行对话的同时，让它处理你的实时视频和任何想

2025年1月15号 11:32

2.7k

面壁智能推MiniCPM-o 2.6：一款适用于手机的多模态智能大模型

OpenBMB 团队近日推出了 MiniCPM-o2.6，这是该系列中最新、功能最强大的多模态大型语言模型（MLLM）。MiniCPM-o2.6的最大亮点在于它的8亿参数，使其在视觉、语音以及多模态直播领域的性能接近于 GPT-4o-202405，成为开源社区中多功能且高效的选择。MiniCPM-o2.6具备强大的输入处理能力，能够接受图像、视频、文本和音频等多种输入方式，并提供高质量的文本和语音输出。这款模型的语音模式更是新增了双语实时对话功能，用户可根据需求配置不同的语音，支持情感、速度和风格的控制，甚至能够进

2025年1月15号 9:25

3.3k

阿里巴巴达摩院推出电商场景多模态大模型Valley 2

阿里巴巴达摩院近日推出了一款名为Valley2的多模态大型语言模型，该模型基于电商场景设计，旨在通过可扩展的视觉-语言架构，提升各领域性能并拓展电商与短视频场景的应用边界。Valley2采用了Qwen2.5作为LLM主干，搭配SigLIP-384视觉编码器，结合MLP层和卷积进行高效特征转换。

2025年1月15号 8:41

3.2k

中文视觉语音开源模型VITA-1.5发布具备类GPT 4o高级语音和视觉能力

最近，多模态大型语言模型（MLLM）取得了显著进展，特别是在视觉和文本模态的集成方面。但随着人机交互的日益普及，语音模态的重要性也日益凸显，尤其是在多模态对话系统中。语音不仅是信息传输的关键媒介，还能显著提高交互的自然性和便利性。然而，由于视觉和语音数据在本质上的差异，将它们整合到 MLLM 中并非易事。例如，视觉数据传达空间信息，而语音数据则传达时间序列中的动态变化。这些根本性的差异给两种模态的同步优化带来了挑战，常常导致训练过程中的冲突。此

2025年1月7号 9:37

1.9k

OpenAI开放满血o1模型API：成本降低60% 新增高级视觉处理能力

在为期12个工作日的连续直播活动中，OpenAI在第9天面向开发者发布了o1模型的API，并宣布对实时API进行重大升级，支持WebRTC技术。自发布日起，OpenAI将向API使用等级5级的开发者提供o1API的访问权限。此次更新的o1模型API相较于之前的预览版本，在思考成本上实现了60%的降低，并新增了高级视觉处理能力。同时，GPT-4o在音频处理上的成本也减少了60%，而mini版本的价格也大幅下降了10倍。

2024年12月18号 8:06

2.8k

书生·万象多模态大模型InternVL 2.5开源性能媲美GPT-4o

近日，上海 AI 实验室宣布推出书生·万象InternVL2.5模型。这款开源多模态大型语言模型以其卓越的性能，成为首个在多模态理解基准(MMMU)上超过70%准确率的开源模型，与商业模型如GPT-4o和Claude-3.5-Sonnet等的性能相媲美。

2024年12月10号 8:16

4.7k

亚马逊开发新型多模态语言模型 “Olympus” 或将亮相 AWS 大会

亚马逊公司近日被报道正在开发一种名为 “Olympus” 的多模态大型语言模型，预计最早将于下周的 AWS re:Invent 大会上正式发布。根据theinformation的消息，这一算法的内部代号为 “Olympus”。去年11月，《路透社》曾报道，亚马逊在训练名为 “Olympus” 的大型语言模型上投入了数百万美元，模型的参数量高达2万亿。至于这次报道中提到的模型是否与之前的 “Olympus” 相同，或是其新版本，亦或是全新的系统，仍然不清楚。图源备注:图片由AI生成，图片授权服务商Midjourney据悉，新的 “Olympus”

2024年11月29号 10:15

2.2k

视频理解领域杀出黑马！Video-XL这款模型能处理长达一小时的视频！

当前，多模态大型语言模型（MLLM）在视频理解领域取得了显著进展，但处理超长视频仍然是一个挑战。这是因为，MLLM 通常难以处理超过最大上下文长度的数千个视觉标记，并且会受到标记聚合导致的信息衰减的影响。同时，大量的视频标记也会带来高昂的计算成本。为了解决这些问题，智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等多所高校提出了 Video-XL，这是一种专为高效的小时级视频理解而设计的超长视觉语言模型。 Video-XL 的核心在于“视觉上下文潜在

2024年10月29号 11:18

2.9k

Meta开源长视频LLM项目LongVU：可过滤重复帧高效精准理解长视频内容

最近，Meta AI 团队带来了 LongVU，这是一种新颖的时空自适应压缩机制，旨在提升长视频的语言理解能力。传统的多模态大型语言模型（MLLMs）在处理长视频时面临着上下文长度的限制，而 LongVU 正是为了解决这一难题而诞生。LongVU 的工作原理主要通过过滤重复帧、跨帧token压缩等方法来高效使用上下文长度，能够在保持视频视觉细节的同时减少视频中的冗余信息。具体来说，团队使用 DINOv2的特征来剔除那些高度相似的冗余帧。接着，通过文本引导的跨模态查询，实现了选择性地减少帧特征

2024年10月28号 14:42

4.6k

AI资讯

AI日报

AI时间线

Al硬件

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图