MiniGPT4-Video

理解复杂视频，作诗配文的AI视频模型

普通产品视频视频理解视频问答

MiniGPT4-Video是为视频理解设计的多模态大模型，能处理时态视觉数据和文本数据，配标题、宣传语，适用于视频问答。基于MiniGPT-v2，结合视觉主干EVA-CLIP，训练多阶段阶段，包括大规模视频-文本预训练和视频问题解答微调。在MSVD、MSRVTT、TGIF和TVQA基准上取得显著提升。定价未知。

Best AI Websites & Tools

MiniGPT4-Video

MiniGPT4-Video 最新流量情况

MiniGPT4-Video 访问量趋势

MiniGPT4-Video 访问地理位置分布

MiniGPT4-Video 流量来源

MiniGPT4-Video 替代品

Apollo-LMMs — 大型多模态模型中视频理解的探索

LVBench — 长视频理解基准测试

VideoRAG — VideoRAG 是一个用于处理极长上下文视频的检索增强型生成框架。

Qwen2.5-VL — Qwen2.5-VL 是一款强大的视觉语言模型，能够理解图像和视频内容并生成相应文本。

Tarsier — Tarsier 是由字节跳动推出的用于生成高质量视频描述的大型视频语言模型。

VideoLLaMA3 — VideoLLaMA3是前沿的多模态基础模型，专注于图像和视频理解。

Mobile-Agent-E — 一款能够自我进化的移动助手，专为复杂任务设计。

OmAgent.com — 一个用于智能设备等的多模态原生代理框架。

Aria-UI — 视觉定位GUI指令的多模态模型

videoprompt.org — AI视频生成提示库

FlagEval — 模型评测平台

OmniAudio-2.6B — 世界上最快的边缘部署音频语言模型

Qwen2-VL-72B — 最新的视觉语言模型，支持多语言和多模态理解

Qwen2-VL-7B — Qwen2-VL-7B是最新的视觉语言模型，支持多模态理解和文本生成。

Qwen2-VL-2B — 最先进的视觉语言模型，支持多模态理解和文本生成。

ultravox-v0_4_1-mistral-nemo — 多模态语音大型语言模型

ultravox-v0_4_1-llama-3_1-8b — 多模态语音大型语言模型

TableGPT2 — 大型多模态模型，集成表格数据

PPLLaVA — 视频序列理解的GPU实现模型

LongVU — 长视频语言理解的时空自适应压缩模型

Aria — 多模态原生混合专家模型

LLaVA-Video — 视频指令调优与合成数据研究

SlowFast-LLaVA — 视频理解与推理的免训练大型语言模型。

Video-CCAM — 腾讯QQ多媒体研究团队开发的轻量级灵活视频多语言模型

Goldfish — 视频理解的先进模型

InternLM-XComposer-2.5 — 一款多功能大型视觉语言模型

ShareGPT4Video — 提升视频理解和生成的AI模型。

VideoLLaMA2-7B — 大型视频-语言模型，提供视觉问答和视频字幕生成。

VideoLLaMA2-7B-16F-Base — 大型视频语言模型，用于视觉问答和视频字幕生成。