Best AI Websites & Tools
zh
AI产品榜
每月不到10元,就可以无限制地访问最好的AIbase。立即成为会员
首页
AI资讯
AI日报
变现指南
AI教程
AI工具导航
AI产品库
zh
AI产品榜
M2UGen
多模态音乐理解和生成系统
普通产品
音乐
音乐生成
音乐理解
打开网站
M2UGen是一个结合大语言模型的多模态音乐理解和生成框架,旨在帮助用户进行音乐创作。它能同时完成音乐理解和多模态音乐生成任务。
网站截图
产品特色
需求人群
使用示例
使用教程
社交网络
打开网站
文本到音乐生成
图像到音乐生成
视频到音乐生成
音乐理解
音乐编辑
音乐创作、音乐理解研究、音乐应用开发
用户可以通过文本描述生成所需的音乐
用户可以上传图像
生成匹配图像风格的音乐
用户可以上传视频
生成匹配视频氛围的音乐背景音乐
打开网站
M2UGen 替代品
MNN 大模型 Android App
— 一款支持多模态功能的全功能大语言模型安卓应用。
生产力
•
大语言模型
•
多模态
2268
Doubao-1.5-pro
— Doubao-1.5-pro 是一个高性能的稀疏 MoE 大语言模型,专注于推理性能与模型能力的极致平衡。
中文精选
•
大语言模型
•
多模态
1104
VITA-1.5
— VITA-1.5: 实时视觉和语音交互的GPT-4o级多模态大语言模型
编程
•
多模态
•
大语言模型
264
InternVL2-8B-MPO
— 多模态大语言模型,提升多模态推理能力
生产力
•
多模态
•
大语言模型
54
UniMuMo
— 统一文本、音乐和动作生成模型
音乐
•
机器学习
•
多模态
210
MA-LMM
— 面向长期视频理解的大规模多模态模型
视频
•
视频理解
•
多模态
690
mPLUG-DocOwl
— 文档理解的模块化多模态大语言模型
生产力
•
文档理解
•
多模态
246
ZeroBench
— ZeroBench 是一个针对当代大型多模态模型的高难度视觉基准测试。
图像
•
多模态
•
基准测试
78
MoBA
— MoBA 是一种用于长文本上下文的混合块注意力机制,旨在提升大语言模型的效率。
生产力
•
大语言模型
•
注意力机制
78
Magma
— Magma 是一个能够理解和执行多模态输入的基础模型,可用于复杂任务和环境。
生产力
•
多模态
•
机器人
90
Grok 3
— xAI推出的最新旗舰AI模型Grok 3,具备强大的推理和多模态处理能力。
国外精选
•
推理
•
多模态
876
CLaMP 3
— CLaMP 3 是一个用于跨模态和跨语言音乐信息检索的统一框架。
音乐
•
音乐信息检索
•
多模态
78
InspireMusic
— 基于 PyTorch 的音乐、歌曲和音频生成工具包,支持高质量音频生成
音乐
•
音乐生成
•
音频处理
156
VideoRAG
— VideoRAG 是一个用于处理极长上下文视频的检索增强型生成框架。
视频
•
视频理解
•
检索增强
72
MedRAX
— MedRAX是一个用于胸部X光片解读的医疗推理AI代理,整合多种分析工具,无需额外训练即可处理复杂医疗查询。
其他
•
医疗
•
胸部X光
138
Qwen2.5-VL
— Qwen2.5-VL 是一款强大的视觉语言模型,能够理解图像和视频内容并生成相应文本。
中文精选
•
多模态
•
图像识别
828
Gemini 2.0 Family
— Gemini 2.0 是谷歌推出的最新一代生成式 AI 模型,包含 Flash、Flash-Lite 和 Pro 版本。
国外精选
•
生成式 AI
•
编程
108
Gemini 2.0 Pro
— Gemini Pro 是 Google DeepMind 推出的高性能 AI 模型,专注于复杂任务处理和编程性能。
国外精选
•
编程
•
复杂任务
198
OmniHuman-1
— OmniHuman-1 是一种基于单张人像和运动信号生成人类视频的多模态框架。
视频
•
视频生成
•
多模态
4584
MILS
— LLMs 无需任何培训就能看见和听见
图像
•
多模态
•
图像描述
66
Janus-Pro-7B
— Janus-Pro-7B 是一个新型的自回归框架,统一多模态理解和生成。
图像
•
多模态
•
图像生成
1080
Janus-Pro-1B
— Janus-Pro-1B 是一个统一多模态理解和生成的自回归框架。
图像
•
多模态
•
图像生成
504
YuE-s1-7B-anneal-en-cot
— YuE是一个开源的音乐生成模型,能够将歌词转化为完整的歌曲。
音乐
•
音乐生成
•
深度学习
180
YuE
— YuE 是一个专注于全曲生成的开源音乐基础模型,能够根据歌词生成完整的音乐作品。
音乐
•
音乐生成
•
多语言支持
264
AI音乐生成器
— 利用尖端AI技术,快速生成任何流派的原创音乐。
音乐
•
AI音乐创作
•
原创音乐
390
Humanity's Last Exam
— Humanity's Last Exam 是一个用于衡量大型语言模型能力的多模态基准测试。
其他
•
基准测试
•
多模态
108
CUA
— CUA 是一种能够通过图形界面与数字世界交互的通用接口。
全球热门
•
多模态
•
自动化
342
Baichuan-M1-14B
— 百川智能开发的专为医疗场景优化的开源大语言模型,具备卓越的通用能力和医疗领域性能。
生产力
•
大语言模型
•
医疗
276
SmolVLM-256M-Instruct
— SmolVLM-256M 是世界上最小的多模态模型,可高效处理图像和文本输入并生成文本输出。
图像
•
多模态
•
图像处理
102