Best AI Websites & Tools
zh
AI产品榜
每月不到10元,就可以无限制地访问最好的AIbase。立即成为会员
首页
AI资讯
AI日报
变现指南
AI教程
AI工具导航
AI产品库
zh
AI产品榜
LVBench
长视频理解基准测试
优质新品
视频
视频理解
基准测试
打开网站
LVBench是一个专门设计用于长视频理解的基准测试,旨在推动多模态大型语言模型在理解数小时长视频方面的能力,这对于长期决策制定、深入电影评论和讨论、现场体育解说等实际应用至关重要。
网站截图
产品特色
需求人群
使用示例
使用教程
打开网站
提供长视频理解的基准测试
包含公开来源的视频,如电视剧、体育广播和日常监控录像
包含多种任务,旨在长视频理解和信息提取
利用手动注释和模型辅助技术创建视频理解问答数据集
挑战多模态模型展示长期记忆和扩展理解能力
通过LVBench推动更高级模型的发展,以处理长视频理解的复杂性
LVBench适用于研究人员和开发者,他们需要评估和改进多模态大型语言模型在长视频理解方面的表现。
研究人员使用LVBench评估不同模型在长视频问答任务上的表现
开发者利用LVBench的数据集训练和测试他们的视频理解模型
教育机构可能使用LVBench作为教学工具,帮助学生理解视频理解技术的前沿发展
访问LVBench官方网站
了解LVBench的背景信息和重要性
查看数据集的详细信息,包括视频类别和子类别
分析不同模型在LVBench上的表现,了解当前技术的限制
利用LVBench的资源开发或改进自己的视频理解模型
打开网站
LVBench 最新流量情况
月总访问量
1641
跳出率
66.33%
平均页面访问数
1.2
平均访问时长
00:00:00
LVBench 访问量趋势
LVBench 访问地理位置分布
LVBench 流量来源
LVBench 替代品
Apollo-LMMs
— 大型多模态模型中视频理解的探索
视频
•
视频理解
•
多模态模型
54
LLaVA-Video
— 视频指令调优与合成数据研究
视频
•
视频理解
•
多模态学习
120
MiniGPT4-Video
— 理解复杂视频,作诗配文的AI视频模型
视频
•
视频理解
•
视频问答
1116
OmniAudio-2.6B
— 世界上最快的边缘部署音频语言模型
生产力
•
音频处理
•
边缘计算
18
Procyon AI Inference Benchmark for Android
— 衡量Android设备AI性能和质量的基准测试工具
其他
•
AI性能
•
基准测试
6
MLPerf Client
— 个人电脑AI性能基准测试
生产力
•
AI性能测试
•
基准测试
18
P-MMEval
— 多语言多任务基准测试,用于评估大型语言模型(LLMs)
其他
•
多语言
•
基准测试
24
Qwen2-VL-7B
— Qwen2-VL-7B是最新的视觉语言模型,支持多模态理解和文本生成。
图像
•
视觉语言模型
•
多模态
24
Qwen2-VL-2B
— 最先进的视觉语言模型,支持多模态理解和文本生成。
图像
•
视觉语言模型
•
多模态
24
ultravox-v0_4_1-mistral-nemo
— 多模态语音大型语言模型
生产力
•
语音识别
•
语音翻译
108
ultravox-v0_4_1-llama-3_1-8b
— 多模态语音大型语言模型
生产力
•
语音识别
•
语音翻译
42
TableGPT2
— 大型多模态模型,集成表格数据
生产力
•
多模态模型
•
表格数据
66
FrontierMath
— AI数学极限测试基准
其他
•
数学
•
基准测试
270
PPLLaVA
— 视频序列理解的GPU实现模型
视频
•
视频理解
•
大型语言模型
30
PARTNR
— 多智能体任务规划与推理的基准测试
其他
•
多智能体
•
自然语言处理
30
SimpleQA
— 衡量语言模型回答事实性问题能力的基准测试
其他
•
基准测试
•
语言模型
90
LongVU
— 长视频语言理解的时空自适应压缩模型
视频
•
视频理解
•
时空压缩
72
Cheating LLM Benchmarks
— 研究项目,探索自动语言模型基准测试中的作弊行为。
编程
•
自然语言处理
•
机器学习
30
Aria
— 多模态原生混合专家模型
编程
•
多模态
•
混合专家模型
120
MLE-bench
— 机器学习工程能力的AI代理评估基准
生产力
•
机器学习
•
AI代理
60
TAG-Bench
— 数据库查询的自然语言处理基准测试
编程
•
自然语言处理
•
数据库查询
132
Video-CCAM
— 腾讯QQ多媒体研究团队开发的轻量级灵活视频多语言模型
视频
•
视频理解
•
多语言模型
132
Turtle Benchmark
— 评估大型语言模型的逻辑推理和上下文理解能力。
编程
•
基准测试
•
逻辑推理
54
llm-colosseum
— 通过街霸3对战评估大型语言模型
编程
•
基准测试
•
街霸3
48
DCLM-baseline
— 高性能语言模型基准测试数据集
编程
•
自然语言处理
•
语言模型
138
Goldfish
— 视频理解的先进模型
视频
•
视频理解
•
长视频处理
246
MiraData
— 大规模长视频数据集,结构化字幕
视频
•
视频数据集
•
长视频
102
LAMDA-TALENT
— 综合表格数据学习工具箱和基准测试
编程
•
表格数据
•
深度学习
78
InternLM-XComposer-2.5
— 一款多功能大型视觉语言模型
生产力
•
视觉语言模型
•
长上下文处理
594