Best AI Websites & Tools
zh
AI产品榜
每月不到10元,就可以无限制地访问最好的AIbase。立即成为会员
首页
AI资讯
AI日报
变现指南
AI教程
AI工具导航
AI产品库
zh
AI产品榜
LVBench
长视频理解基准测试
优质新品
视频
视频理解
基准测试
打开网站
LVBench是一个专门设计用于长视频理解的基准测试,旨在推动多模态大型语言模型在理解数小时长视频方面的能力,这对于长期决策制定、深入电影评论和讨论、现场体育解说等实际应用至关重要。
网站截图
产品特色
需求人群
使用示例
使用教程
社交网络
打开网站
提供长视频理解的基准测试
包含公开来源的视频,如电视剧、体育广播和日常监控录像
包含多种任务,旨在长视频理解和信息提取
利用手动注释和模型辅助技术创建视频理解问答数据集
挑战多模态模型展示长期记忆和扩展理解能力
通过LVBench推动更高级模型的发展,以处理长视频理解的复杂性
LVBench适用于研究人员和开发者,他们需要评估和改进多模态大型语言模型在长视频理解方面的表现。
研究人员使用LVBench评估不同模型在长视频问答任务上的表现
开发者利用LVBench的数据集训练和测试他们的视频理解模型
教育机构可能使用LVBench作为教学工具,帮助学生理解视频理解技术的前沿发展
访问LVBench官方网站
了解LVBench的背景信息和重要性
查看数据集的详细信息,包括视频类别和子类别
分析不同模型在LVBench上的表现,了解当前技术的限制
利用LVBench的资源开发或改进自己的视频理解模型
打开网站
LVBench 替代品
Apollo-LMMs
— 大型多模态模型中视频理解的探索
视频
•
视频理解
•
多模态模型
102
LLaVA-Video
— 视频指令调优与合成数据研究
视频
•
视频理解
•
多模态学习
156
MiniGPT4-Video
— 理解复杂视频,作诗配文的AI视频模型
视频
•
视频理解
•
视频问答
1194
ZeroBench
— ZeroBench 是一个针对当代大型多模态模型的高难度视觉基准测试。
图像
•
多模态
•
基准测试
84
SWE-Lancer
— SWE-Lancer 是一个包含 1400 多个自由软件工程任务的基准测试,总价值 100 万美元。
国外精选
•
基准测试
•
软件工程
96
VideoRAG
— VideoRAG 是一个用于处理极长上下文视频的检索增强型生成框架。
视频
•
视频理解
•
检索增强
72
Qwen2.5-VL
— Qwen2.5-VL 是一款强大的视觉语言模型,能够理解图像和视频内容并生成相应文本。
中文精选
•
多模态
•
图像识别
834
Tarsier
— Tarsier 是由字节跳动推出的用于生成高质量视频描述的大型视频语言模型。
视频
•
视频描述
•
视频理解
516
Humanity's Last Exam
— Humanity's Last Exam 是一个用于衡量大型语言模型能力的多模态基准测试。
其他
•
基准测试
•
多模态
108
VideoLLaMA3
— VideoLLaMA3是前沿的多模态基础模型,专注于图像和视频理解。
视频
•
多模态
•
视频理解
108
Mobile-Agent-E
— 一款能够自我进化的移动助手,专为复杂任务设计。
生产力
•
移动助手
•
复杂任务
240
OmAgent.com
— 一个用于智能设备等的多模态原生代理框架。
生产力
•
多模态
•
智能设备
78
Procyon AI Image Generation Benchmark
— 用于衡量设备 AI 加速器推理性能的基准测试工具。
其他
•
图像生成
•
基准测试
270
Aria-UI
— 视觉定位GUI指令的多模态模型
生产力
•
视觉定位
•
多模态模型
120
videoprompt.org
— AI视频生成提示库
视频
•
AI视频生成
•
视频编辑
228
FlagPerf
— 开源AI芯片性能基准测试平台
生产力
•
AI芯片
•
性能测试
48
FlagEval
— 模型评测平台
其他
•
模型评测
•
大语言模型
90
Procyon AI Text Generation Benchmark
— AI文本生成性能测试工具
其他
•
AI性能测试
•
基准测试
36
Procyon Professional Benchmark Suite
— 专业用户的性能测试基准套件
其他
•
性能测试
•
基准测试
54
FACTS Grounding
— 用于评估大型语言模型事实性的最新基准
其他
•
语言模型
•
基准测试
102
OmniAudio-2.6B
— 世界上最快的边缘部署音频语言模型
生产力
•
音频处理
•
边缘计算
138
Procyon AI Inference Benchmark for Android
— 衡量Android设备AI性能和质量的基准测试工具
其他
•
AI性能
•
基准测试
24
MLPerf Client
— 个人电脑AI性能基准测试
生产力
•
AI性能测试
•
基准测试
54
P-MMEval
— 多语言多任务基准测试,用于评估大型语言模型(LLMs)
其他
•
多语言
•
基准测试
42
Qwen2-VL-7B
— Qwen2-VL-7B是最新的视觉语言模型,支持多模态理解和文本生成。
图像
•
视觉语言模型
•
多模态
96
Qwen2-VL-2B
— 最先进的视觉语言模型,支持多模态理解和文本生成。
图像
•
视觉语言模型
•
多模态
66
ultravox-v0_4_1-mistral-nemo
— 多模态语音大型语言模型
生产力
•
语音识别
•
语音翻译
150
ultravox-v0_4_1-llama-3_1-8b
— 多模态语音大型语言模型
生产力
•
语音识别
•
语音翻译
54
TableGPT2
— 大型多模态模型,集成表格数据
生产力
•
多模态模型
•
表格数据
534