Best AI Websites & Tools
zh
红薯智语
每月不到10元,就可以无限制地访问最好的AIbase。立即成为会员
首页
AI资讯
AI日报
变现指南
AI教程
AI工具导航
AI产品库
zh
红薯智语
LVBench
长视频理解基准测试
优质新品
视频
视频理解
基准测试
打开网站
LVBench是一个专门设计用于长视频理解的基准测试,旨在推动多模态大型语言模型在理解数小时长视频方面的能力,这对于长期决策制定、深入电影评论和讨论、现场体育解说等实际应用至关重要。
网站截图
产品特色
需求人群
使用示例
使用教程
打开网站
提供长视频理解的基准测试
包含公开来源的视频,如电视剧、体育广播和日常监控录像
包含多种任务,旨在长视频理解和信息提取
利用手动注释和模型辅助技术创建视频理解问答数据集
挑战多模态模型展示长期记忆和扩展理解能力
通过LVBench推动更高级模型的发展,以处理长视频理解的复杂性
LVBench适用于研究人员和开发者,他们需要评估和改进多模态大型语言模型在长视频理解方面的表现。
研究人员使用LVBench评估不同模型在长视频问答任务上的表现
开发者利用LVBench的数据集训练和测试他们的视频理解模型
教育机构可能使用LVBench作为教学工具,帮助学生理解视频理解技术的前沿发展
访问LVBench官方网站
了解LVBench的背景信息和重要性
查看数据集的详细信息,包括视频类别和子类别
分析不同模型在LVBench上的表现,了解当前技术的限制
利用LVBench的资源开发或改进自己的视频理解模型
打开网站
LVBench 最新流量情况
月总访问量
533
跳出率
39.10%
平均页面访问数
1.3
平均访问时长
00:00:00
LVBench 访问量趋势
LVBench 访问地理位置分布
LVBench 流量来源
LVBench 替代品
LLaVA-Video
— 视频指令调优与合成数据研究
视频
•
视频理解
•
多模态学习
96
MiniGPT4-Video
— 理解复杂视频,作诗配文的AI视频模型
视频
•
视频理解
•
视频问答
1110
TableGPT2
— 大型多模态模型,集成表格数据
生产力
•
多模态模型
•
表格数据
36
FrontierMath
— AI数学极限测试基准
其他
•
数学
•
基准测试
180
PPLLaVA
— 视频序列理解的GPU实现模型
视频
•
视频理解
•
大型语言模型
18
PARTNR
— 多智能体任务规划与推理的基准测试
其他
•
多智能体
•
自然语言处理
24
SimpleQA
— 衡量语言模型回答事实性问题能力的基准测试
其他
•
基准测试
•
语言模型
84
LongVU
— 长视频语言理解的时空自适应压缩模型
视频
•
视频理解
•
时空压缩
66
Cheating LLM Benchmarks
— 研究项目,探索自动语言模型基准测试中的作弊行为。
编程
•
自然语言处理
•
机器学习
18
Aria
— 多模态原生混合专家模型
编程
•
多模态
•
混合专家模型
108
MLE-bench
— 机器学习工程能力的AI代理评估基准
生产力
•
机器学习
•
AI代理
60
TAG-Bench
— 数据库查询的自然语言处理基准测试
编程
•
自然语言处理
•
数据库查询
108
Video-CCAM
— 腾讯QQ多媒体研究团队开发的轻量级灵活视频多语言模型
视频
•
视频理解
•
多语言模型
120
Turtle Benchmark
— 评估大型语言模型的逻辑推理和上下文理解能力。
编程
•
基准测试
•
逻辑推理
54
llm-colosseum
— 通过街霸3对战评估大型语言模型
编程
•
基准测试
•
街霸3
42
DCLM-baseline
— 高性能语言模型基准测试数据集
编程
•
自然语言处理
•
语言模型
138
Goldfish
— 视频理解的先进模型
视频
•
视频理解
•
长视频处理
234
MiraData
— 大规模长视频数据集,结构化字幕
视频
•
视频数据集
•
长视频
102
LAMDA-TALENT
— 综合表格数据学习工具箱和基准测试
编程
•
表格数据
•
深度学习
78
InternLM-XComposer-2.5
— 一款多功能大型视觉语言模型
生产力
•
视觉语言模型
•
长上下文处理
588
ShareGPT4Video
— 提升视频理解和生成的AI模型。
视频
•
视频理解
•
文本到视频
600
VideoLLaMA2-7B
— 大型视频-语言模型,提供视觉问答和视频字幕生成。
视频
•
视频理解
•
语言模型
498
VideoLLaMA 2
— 视频理解领域的先进空间-时间建模与音频理解模型。
视频
•
视频理解
•
空间-时间建模
618
KnowEdit
— 知识编辑基准测试,用于评估大型语言模型的知识编辑方法。
其他
•
知识编辑
•
大型语言模型
30
VILA
— 一个多图像视觉语言模型,具有训练、推理和评估方案,可从云端部署到边缘设备(如Jetson Orin和笔记本电脑)。
图像
•
视觉语言模型
•
视频理解
768
Video Mamba Suite
— 视频理解领域的新型状态空间模型,提供视频建模的多功能套件。
视频
•
视频理解
•
状态空间模型
462
LMSYS Chatbot Arena
— 在线聊天机器人竞技场,比较不同语言模型的表现。
国外精选
•
聊天机器人
•
语言模型
330
MA-LMM
— 面向长期视频理解的大规模多模态模型
视频
•
视频理解
•
多模态
672
VQAScore
— 用于评估文本到视觉生成的创新性指标和基准测试
图像
•
文本生成
•
视觉生成
150