Best AI Websites & Tools
zh
AI产品榜
每月不到10元,就可以无限制地访问最好的AIbase。立即成为会员
首页
AI资讯
AI日报
变现指南
AI教程
AI工具导航
AI产品库
zh
AI产品榜
MATHVERSE
探讨多模态大型语言模型在解决视觉数学问题中的能力
普通产品
生产力
多模态学习
视觉信息处理
打开网站
MATHVERSE项目旨在评估多模态大型语言模型处理和理解视觉数学问题的能力,特别是如何解析和理解问题中的图表信息。
网站截图
产品特色
需求人群
使用示例
使用教程
打开网站
视觉数学问题解析
多模态理解评估
基于思维链的解答策略
用于研究和开发更好的多模态学习模型,以提高在教育领域中的应用性能。
提升数学教学工具的效果
研究多模态语言模型的能力
改进AI在教育领域的应用
打开网站
MATHVERSE 替代品
LLaVA-o1
— 视觉语言模型,能够进行逐步推理
生产力
•
视觉语言模型
•
逐步推理
42
PPLLaVA
— 视频序列理解的GPU实现模型
视频
•
视频理解
•
大型语言模型
18
Agent S
— Agent S:一个开放的代理框架,让计算机像人类一样使用计算机。
生产力
•
自动化
•
人机交互
12
FakeShield
— 基于多模态大语言模型的可解释图像检测与定位
图像
•
图像检测
•
多模态学习
66
LLaVA-Video
— 视频指令调优与合成数据研究
视频
•
视频理解
•
多模态学习
108
NVLM
— 前沿级多模态大型语言模型,实现视觉-语言任务的先进性能。
生产力
•
多模态学习
•
大型语言模型
108
LongLLaVA
— 高效扩展多模态大型语言模型至1000图像
图像
•
多模态学习
•
图像处理
90
EAGLE
— 多模态大型语言模型设计空间探索
编程
•
多模态学习
•
大型语言模型
312
SlowFast-LLaVA
— 视频理解与推理的免训练大型语言模型。
生产力
•
视频问答
•
多模态学习
108
Llama3-s v0.2
— 最新多模态检查点,提升语音理解能力。
编程
•
语音识别
•
自然语言处理
174
llama3-s
— 一个正在训练中的开源语言模型,具备“听力”能力。
编程
•
自然语言处理
•
机器学习
102
MAVIS
— 数学视觉指令调优模型
生产力
•
机器学习
•
多模态学习
84
LongVA
— 从语言到视觉的长上下文转换模型
图像
•
长上下文
•
视觉模型
108
MG-LLaVA
— 多粒度视觉指令调优的创新MLLM
编程
•
机器学习
•
视觉处理
36
4M
— 多模态和多任务模型训练框架
国外精选
•
多模态学习
•
Transformer模型
102
Stable Diffusion 3 免费在线
— 先进文本生成图像模型
图像
•
AI图像生成
•
文本到图像
576
VideoLLaMA2-7B-Base
— 大型视频语言模型,提供视觉问答和视频字幕生成。
视频
•
视频分析
•
多模态学习
648
emo-visual-data
— 表情包视觉标注数据集
图像
•
数据集
•
多模态学习
138
llama3v
— 基于llama3 8B的SOTA视觉模型
图像
•
视觉模型
•
多模态学习
432
CuMo
— 一种用于扩展多模态大型语言模型(LLMs)的先进架构。
编程
•
多模态学习
•
大型语言模型
120
Bunny
— 轻量级但功能强大的多模态模型家族。
编程
•
多模态学习
•
机器学习
180
llava-llama-3-8b-v1_1
— 一款由XTuner优化的LLaVA模型,结合了图像和文本处理能力。
编程
•
多模态学习
•
深度学习
420
MyGO
— 多模态知识图谱补全工具
编程
•
知识图谱
•
多模态学习
402
Stable Diffusion 3 API
— 先进的文本到图像生成系统
图像
•
AI生成
•
图像生成
5580
MoE-LLaVA
— 基于大规模视觉-语言模型的专家混合模型
图像
•
大规模模型
•
多模态学习
426