AI新闻资讯

AI资讯

不错过全球AI革新的每一个时刻

AI日报

每天三分钟关注AI行业趋势

AI时间线

AI行业大事记

AI变现指南

最新案例

AI变现案例分享

图片合集

AI图片制作变现案例分享

视频合集

AI视频制作变现案例分享

音频合集

AI音频制作变现案例分享

文案合集

AI内容写作变现案例分享

AI教程

最新教程

免费分享最新AI教程内容

AI产品榜

AI产品排行榜

展示AI网站的总访问量排名

AI产品流量增速榜

追踪AI网站访问量增长最快产品

AI产品流量下降榜

关注访问量下降明显的AI网站

AI产品周榜

展示AI网站的周访问量排名

热门国家排行榜

美国

美国用户最喜欢的AI网站

中国

中国用户最喜欢的AI网站

印度

印度用户最喜欢的AI网站

巴西

巴西用户最喜欢的AI网站

热门分类榜

图片生成

AI图片生成网站总访问量榜单

个人助理

AI个人助理网站总访问量榜单

角色生成网站

AI角色生成网站总访问量榜单

视频生成

AI视频生成网站总访问量榜单

热门开源数据榜单

AI项目榜单

热门AI项目总Start榜单

AI项目增速榜

热门AI项目增速榜

AI开发者排名

热门AI开发者排名

AI组织排名

热门AI组织排名榜单

热门开源分类

deepseek

热门deepseek开源项目

TTS

热门TTS开源项目

LLM

热门LLM开源项目

ChatGPT

热门ChatGPT开源项目

AI开源项目库

全景图

github热门AI开源项目总览

产品库工具导航

MA-LMM

面向长期视频理解的大规模多模态模型

普通产品视频视频理解多模态

MA-LMM是一种基于大语言模型的大规模多模态模型,主要针对长期视频理解进行设计。它采用在线处理视频的方式,并使用记忆库存储过去的视频信息,从而可以在不超过语言模型上下文长度限制或GPU内存限制的情况下,参考历史视频内容进行长期分析。MA-LMM可以无缝集成到当前的多模态语言模型中,并在长视频理解、视频问答和视频字幕等任务上取得了领先的性能。

MA-LMM

MA-LMM 最新流量情况

月总访问量

289

跳出率

45.02%

平均页面访问数

1.0

平均访问时长

00:00:00

MA-LMM 访问量趋势

MA-LMM 访问地理位置分布

MA-LMM 流量来源

MA-LMM 替代品

MA-LMM — 面向长期视频理解的大规模多模态模型

•视频理解•多模态

M2RAG — 用于多模态上下文中的检索增强生成的基准测试代码库。

•多模态•检索增强生成

VideoRAG — VideoRAG 是一个用于处理极长上下文视频的检索增强型生成框架。

•视频理解•检索增强

Qwen2.5-VL — Qwen2.5-VL 是一款强大的视觉语言模型，能够理解图像和视频内容并生成相应文本。

•多模态•图像识别

MNN 大模型 Android App — 一款支持多模态功能的全功能大语言模型安卓应用。

•大语言模型•多模态

VideoLLaMA3 — VideoLLaMA3是前沿的多模态基础模型，专注于图像和视频理解。

•多模态•视频理解

Doubao-1.5-pro — Doubao-1.5-pro 是一个高性能的稀疏 MoE 大语言模型，专注于推理性能与模型能力的极致平衡。

•大语言模型•多模态

OmAgent.com — 一个用于智能设备等的多模态原生代理框架。

•多模态•智能设备

VITA-1.5 — VITA-1.5: 实时视觉和语音交互的GPT-4o级多模态大语言模型

•多模态•大语言模型

InternVL2-8B-MPO — 多模态大语言模型，提升多模态推理能力

•多模态•大语言模型

Qwen2-VL-7B — Qwen2-VL-7B是最新的视觉语言模型，支持多模态理解和文本生成。

•视觉语言模型•多模态

Qwen2-VL-2B — 最先进的视觉语言模型，支持多模态理解和文本生成。

•视觉语言模型•多模态

Aria — 多模态原生混合专家模型

•多模态•混合专家模型

VideoLLaMA2-7B — 大型视频-语言模型，提供视觉问答和视频字幕生成。

•视频理解•语言模型

mPLUG-DocOwl — 文档理解的模块化多模态大语言模型

•文档理解•多模态

M2UGen — 多模态音乐理解和生成系统

•音乐生成•音乐理解

DreamActor-M1 — 基于 DiT 的人类图像动画框架，实现精细控制与长效一致性。

•人类动画•视频生成

Gemini 2.5 — Gemini 2.5 是谷歌最智能的 AI 模型，具备推理能力。

•编程•推理

Mistral Small 3.1 — 增强文本与视觉任务处理能力的开源模型。

•多模态•文本处理

MistralOCR.net — Mistral OCR 是一款强大的文档理解 OCR 产品，能够以极高的准确性从 PDF 和图像中提取文本、图像、表格和方程式。

•文档处理•OCR

Gemini Robotics — 基于Gemini 2.0的机器人模型，将AI带入物理世界，具备视觉、语言和动作能力。

•机器人•多模态

R1-Omni — R1-Omni 是一个结合强化学习的全模态情绪识别模型，专注于提升多模态情绪识别的可解释性。

•多模态•情绪识别

GO-1 — 智元发布首个通用具身基座大模型GO-1，开创性提出ViLLA架构，推动具身智能发展。

•具身智能•多模态

OpenAI Agents SDK — OpenAI Agents SDK 是一个用于构建自主智能体的开发工具包，简化多智能体工作流的编排。

•智能体•自动化

SmolVLM2 — SmolVLM2 是一个专注于视频内容分析和生成的轻量化语言模型。

•视频分析•文本生成

Argo — 轻松构建自己的大模型，专属智慧，尽在本地。

•大语言模型•本地部署

NotaGen — NotaGen 是一个用于符号音乐生成的模型，采用大语言模型训练范式，专注于生成高质量古典乐谱。

•音乐生成•大语言模型

AoT — Atom of Thoughts (AoT) 是一种用于提升大语言模型推理性能的框架。

•大语言模型•推理框架

Inception Labs — Inception Labs 推出新一代扩散式大语言模型，提供极速、高效和高质量的语言生成能力。

•语言模型•扩散模型

Spark-TTS — Spark-TTS 是一种基于大语言模型的高效单流解耦语音合成模型。

•语音合成•大语言模型